加入收藏 | 设为首页 | 会员中心 | 我要投稿 宿州站长网 (https://www.0557zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

专访:大数据群雄逐鹿 Hadoop坚持开源?

发布时间:2017-01-08 23:35:11 所属栏目:教程 来源:皮丽华
导读:副标题#e# 【评论】出身名门雅虎的Hortonworks拥有许多优秀的Hadoop架构师与源代码的贡献者,它们为Apache Hadoop项目贡献了超过80%的源代码。随着各种Hadoop发行版的涌现,Hortonworks如何能一枝独秀,坚持自己百分之百的开源路线呢?本期IT名人堂嘉宾,我
副标题[/!--empirenews.page--]

  【 评论】出身名门雅虎的Hortonworks拥有许多优秀的Hadoop架构师与源代码的贡献者,它们为Apache Hadoop项目贡献了超过80%的源代码。随着各种Hadoop发行版的涌现,Hortonworks如何能一枝独秀,坚持自己百分之百的开源路线呢?本期IT名人堂嘉宾,我们在2015中国Hadoop技术峰会上,邀请到了Hortonworks的 CTO Jeff,对他进行了独家视频访谈。

  皮皮:Jeff,很高兴认识您!作为Hortonworks的CTO,您在海外非常有名气了,可能对中国人还不太熟悉,能不能介绍下自己?

  Jeff:当然,我叫Jeff,是Hortonworks亚太地区的技术总监,我们是一家提供开源Hadoop版本的提供商。

  皮皮:在2015中国Hadoop技术峰会上,您的演讲主题是什么?能否和我们分享下您的主要演讲内容?

  Jeff:我回顾了2014年的历程,也讲到了这一年重点发生的一些业界大事儿,整个Hadoop生态系统变得越来越成熟,变得越来越重要。在技术层面上,我还谈及了架构、SQL on Hadoop的解决方案等。此外,我还从整个开源项目的角度,预测了2015年Hadoop生态系统的发展趋势。

  皮皮:当我们谈到大数据,大家会想到Hadoop,于是有人就会很好奇,大数据等同于Hadoop吗?它们之间是什么关系?

  Jeff:这个问题问得很好,有些人说大数据就是Hadoop,有些人觉得大数据不是Hadoop。毫无疑问,大数据势不可挡,变得越来越流行,这背后有很多原因,其一是因为它纯开源、拥有庞大的用户群;其二是因为有足够成熟的硬件支持,众人拾材火焰高。

  这就意味着大家可以开始下载、尝试体验、找出一些处理和分析数据的新方法,那在此之前呢,我们没有办法做到这些,所以,我觉得大数据和Hadoop非常相近,可以合二为一。

  皮皮:这些年来,Hadoop广为人知,几乎每个人都在谈论Hadoop,您是如何看待Hadoop生态系统的未来?

  Jeff:我非常看好Hadoop生态系统的未来,因为它的开源,因为它拥有不错的硬件支撑,任何规模的企业都可以采用前所未有的方式来采集与分析数据,对我们来讲,我们会将重心转移,从之前关注版本技术的层面,逐步转移到更加广阔的用户应用场景中。

  不同的行业,比如财务部门,制造业、电信业,怎么利用今天的数据来保持竞争性的优势呢?我们更需要探讨的是Hadoop对每个企业能带来哪些整体价值。对企业来讲,我们不仅要利用数据来淘金,还需要借助数据来更好、更深层次的理解客户、产品和他们的服务。

  皮皮:您说得非常好,我们今天在谈大数据,经常会提及到3V( volume、variety、 velocity),Hadoop是怎么来满足这些需求的?

  Jeff:没错,这是一些与Hadoop、大数据非常相关的常见术语,我考虑更多的是,如何简化Hadoop的版本问题,这样我们可以采用新的方法把数据整合进Hadoop生态系统中。比如最近兴起的storm、spark技术等。

  皮皮:我常常认为,我们可以借助大数据或者Hadoop技术,把原始数据变成美元或者人民币,但是数据是非常有价值的,有些数据也是特别敏感的,那在数据挖掘中如何保证数据的安全性呢?

  Jeff:这些技术非常重要,在我们今天看到的Hadoop架构中是真实存在的,不可或缺的。无论是Hadoop、Storm还是Spark,它们的功能都在增长,也会变得更加重要。未来,我们觉得,大家会越来越喜欢探讨Hadoop用户案例等问题。

  谈到Hadoop,我们可能不再关注于查询性能的优化,安全性问题将会成为Hadoop社区新的关注点。

  我们Hortonworks收购了一家XA Secure的企业,我们为Apache软件基金会贡献了一个新项目Apache Ranger。这个新项目结合了一些安全性特征,被引入到了Hadoop项目的内核中,为Hadoop的发行版提供了全面的安全套件。在这个安全套件里,不管你把数据存储在Hadoop集群里,还是存储在Hive Table、或者HDFS里,我们都可以使用Apache Ranger项目来确保数据的安全性。

  皮皮:尽管Hadoop发展得如火如荼,但我们很少人会直接使用Apache的发行版。与此同时,我们注意到越来越多的Hadoop发行版开始涌现了,比如Cloudera、IBM、微软、Hortonworks和Amazon等。能不能和我们谈谈这些发行版在大数据市场的地位?

  Jeff:你说到,很少人会直接使用Apache发行版,这个没错。事实上,当你在使用Hortonworks 数据平台的时候,你在使用开源的Apache 软件基金会的发行版。我们坚信,开源能够带来最好的价值,开源能够实现最好的创新,开源能够为数据中心引入最好的技术。因此,我们要做的事情都会围绕Apache软件基金会展开。

  当然,我对其它的发行版也心生敬畏,比如Cloudera Manager、 Cloudera Navigator等,这些项目在开源的世界里发挥着非常重要的作用。而我们一直以来,都坚持将它开源,保持了整个Hadoop生态系统的纯开源的本质。除了Hortonworks,没有其它的企业还能坚持百分之百的开源。

  皮皮:对于中国从事大数据行业的CTO,您有哪些建议?

  Jeff:当我们投入Apache软件基金会的研发过程时,当我们在开发Hadoop核心代码时,我们要把已有的技术和资金投入到我们的数据中心里。无论你用的是Oracle、SQL Server、还是Teradata等数据库,我们想做的是将Hadoop整合到已有的技术中,能够将现有技术的价值最大化。因此,我想对CTO说的是,请在你的数据中心中使用Hadoop吧,将Hadoop整合到您的产品中吧,因为它们是开源的。

  皮皮:对于中国从事大数据行业的个人来讲,您有哪些建议?

  Jeff:对于个人来讲,我的建议是上官方网站Hortonworks.com 下载Sandbox体验下,这是一个大家都可以使用的虚拟机,它能够免费运行在桌面上,同时支持Windows和Mac操作系统,大家可以在VMware里运行Sandbox,也可以在VirtualBox里运行它。

  随着企业数据量的增大,数据越来越多样化,Hadoop大展拳脚,很多终端用户可能感觉不到,但他们却在真实使用着Hadoop,他们能觉察到的是自己所使用的数据越来越庞大,越来越复杂。

    更多详情内容,请参看以下英文采访原文:

  PiPi:Hello, Jeff, Nice to meet you!You are well known overseas as Horthonworks CTO, Maybe you are not so familiar with Chinese people.So can you Introduce yourself?

  Jeff Markham:Sure. My name is Jeff Markham. I am the Technical Director for Asia Pacific for Hortonworks, the providers of the only open-sourced Hadoop distribution.

  PiPi:So,on China Hadoop Summit,what is your presentation?Could you share your keynote?

  Jeff Markham:Sure. Today I talk about what happened in 2014 and it was an importance in the Hadoop ecosystem. We talk a little bit about architecture; we talk a little bit about the SQL on Hadoop solutions and then we look at what is coming in 2015 in Hadoop ecosystem in terms of what is available in the pure open source projects.

  PiPi:When we can talk about big data, we will think of Hadoop, so people may ask, is big data equals to hadoop? What do you think of their relationship?

  Jeff Markham:That’s a good question. Some people say Big Data is Hadoop, some people say Big Data is… is not Hadoop. We of course see the rise in the popularity of Big Data, very much in parallel with the rise in the popularity of Hadoop. And the reason for that, popularity for Hadoop, the reason for the huge rate of the option is that Hadoop is built on a couple of key things. One is that it’s a pure open source; two is that it runs on commodity hardware. That means anybody can start downloading and experimenting and finding out new ways to process and analyze their data. Today, well, as before, they were never able to do that. So in my opinion, yes ,I think Big Data and Hadoop are so closely related and they can be considered as the same thing .

  PiPi:Hadoop is so popular during these years,it seems that everybody is talking about Hadoop. How do you see the future of the Hadoop ecosystem?

  Jeff Markham:Well, I see the rate of the option only increasing, just for the same reason that I mentioned before.The fact that it’s open-sourced, the fact that it runs on commodity hardware, enables any company of any size to start ingesting and analyzing data as they have never been able to do before. So I only see the rate of the option simply increasing, uh…, during this year. Well, I think it’s going to be important this year is we’re gotta  move away from how fast can one distribution versus another process’s certain query, and I think we gotta start discussing more broad-level used cases.

  How can industries, uh…, such as the financial sector, how can industries, such as manufacturing, telcos, take the data that they have today and use it as a competitive advantage? I don’t think we gotta have a lot of the discussion this year on who does what query 5 seconds faster. I think we gotta have a bigger discussion on what is the overall value of Hadoop to each individual organization. How can they use it to not only monetize their data, but to give a better, deeper understanding of their customers, or their product, or their service?

(编辑:宿州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章