商业软件的版本更新非常快,而每次更新所添加的“新特性”是用户最为关注的,而基于Apache Hadoop的产品也是如此。想要让Hadoop真正为企业所用,并不断扩展其用例,新特性是必不可少的。
变化并不是表面功夫而已,随着每一个版本的更新,其中添加的新特性都是来自于用户在使用Hadoop时所遇到的各种问题。Hadoop之所以能够流行起来,是因为它能够使用廉价服务器搭建分布式集群,为用户提供了一个针对非机构化数据、日志文件以及其他类型大数据的低成本存储和数据处理解决方案。然而我们需要认识到,想让Hadoop向数据仓库一样完全融入企业IT部门,还有许多工作要做。
有时候,Hadoop系统的性能会出现很大问题。作为一项相对较新的技术,Hadoop并不稳定而且在编程方面也很复杂,同时管理工具也不如其他成熟产品完善。总而言之,针对Hadoop的主要用例——分析应用,它还并不是一个开箱即用的解决方案。
于是“Hadoop生态系统”这个词出现在我们视野当中,其实就是不同版本的Hadoop中包含的各种插件与组件,如Flume、Pig、Hive、ZooKeeper、Oozie等。当然还有HBase这一主流列式NoSQL数据库。
让HBase与Hadoop更紧密的集成
通过发布MapR M7,大数据公司MapR希望打通Hadoop迈向企业级应用的道路。MapR的创始人大多来自当初Google的MapReduce团队,因此他们对Hadoop的优势与限制理解颇深。MapR M7主要将HBase加入了他们的Hadoop发行版当中,但是他们的方法却很不“平常”。
HBase通过将数据库表区域扩散到集群中的所有服务器上来实现横向扩展,用户发现在一些情况下,这种方法可能会造成性能下降,同时可用性以及数据库镜像功能等都会受到影响。MapR副总裁Jack Norris介绍,他们一直在致力于解决这些问题,而且一直在对MapR的Hadoop底层代码进行修改,以改善性能和稳定性。新的产品中,他们让Hadoop与HBase有了一个更紧密的集成,放弃了分割两层Java虚拟机的做法,而后者正是造成性能瓶颈的主要原因。
与此同时,来自美国Palo Alto市的Continuuity公司还刚刚发布了两款工具——Developer Suite和Developer Sandbox,旨在帮助程序员降低Hadoop开发难度。Continuuity公司的创始人均来自Yahoo和Facebook,以往的经验告诉他们,开发团队往往需要更高级别的应用编程接口(API)以及实用的代码库,才能让Hadoop和HBase进入主流。
Continuuity CEO Todd Papaioannou表示:“在Yahoo工作的时候我们发现在Hadoop上构建应用是非常困难的,甚至导入和导出数据都成问题。而使用Continuuity的软件,可能还是要用Java来编程,但其中的API能够让更多的普通程序员成为大数据应用开发者。”
Papaioannou强调,目前如果你想要成为Hadoop开发者,你就必须学习很多分布式系统的知识。在Hadoop刚刚诞生的时候,Google、Yahoo等搜索引擎公司都有不少分布式系统专家,但在传统的企业当中却是非常少见。同其他厂商一样,Continuuity想要提供Hadoop生态系统中的组件更高效的联系,同时还要为开发者人群提升生产率做出努力。
Papaioannou认为,Continuuity所做的是十分有意义的,否则Hadoop开发者们还需要向搭积木一样自己拼凑各个组件。
Hadoop之路无坦途
Hadoop最初设计就是用来在分布式系统下批量运行Web搜索的,但是随着大数据时代的到来,它的发展已经超出了最初的范畴。TechTarget商务智能分析师Wayne Eckerson建议,Hadoop技术还有很长的一段路要走,才能弥补现在的不足。
Eckerson指出,现在的公司使用Hadoop,更多的是把它当做一个ETL工具,这本身并没有错,但是这绝不是Hadoop未来的发展方向。
要创建新的Hadoop企业用例,就需要迈出重要的一步,这就是让用户使用基于SQL的工具来直接在Hadoop系统中对各种数据进行分析。早期Hadoop使用者往往会要求他们的供应商提供这样的能力,比如写一个新的SQL查询引擎。像Cloudera的Impala和Greenplum刚刚发布的Hawq都将对Hadoop生态系统起到非常重要的补充作用。然而Eckerson提醒用户,新的产品还有待时间的检验,它们对Hadoop数据的实时查询究竟表现如何,目前市场反馈还非常欠缺。
当然,Hadoop的新一页已经缓缓打开,我们有理由相信在不远的未来还会出现更好用的产品和组件。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。
-
如何使用SAP HANA Vora规划HANA大数据战略?
SAP努力将HANA定位为一个大数据平台。要制定可行的大数据战略,您需要了解诸如SAP HANA Vora之类的工具。
-
进入机器学习时代,数据库何去何从?
Vertica之前就已经能够对Hadoop数据进行访问,但Vertica8.0分析引擎则能够与Hadoop数据适当协作,如此一来就能减少数据迁移。
-
NoSQL——未来数据库家族的一员
NoSQL是对数据库由内而外的全方位改造,从而创造出一个高容量、高速度和高可变性的架构。然而,NoSQL供应商在可变性部分却正在遭遇失败。