现在,当人们提到大数据的时候首先想起的技术往往是Hadoop MapReduce,像Hadoop这样的分布式架构在10年之前的运用是非常少的——互联网发展刚刚起步,从地球诞生到2003年的全球数据量一共是5EB,而我们现在每两天就能生成5EB的数据。传统的交易数据库在应对数据激增的挑战时已经显现出不足,企业越来越多地开始部署数据仓库、商业智能系统来进行数据分析等工作。随着Hadoop MapReduce在大数据方面起到了越来越重要的作用,那么我们今天就在这里了解一下什么是Hadoop MapReduce,它们对如今的IT起着怎样的作用。
什么是Hadoop?
Hadoop是一个分布式系统架构,它可以用来应对海量数据的存储,而这样的数据量往往是以PB甚至ZB来计算的。Hadoop的存储系统我们称作Hadoop Distributed File System(HDFS),它是由Doug Cutting创建的,其灵感来源于Google的一篇学术论文。Doug Cutting是谁呢?著名Apache开源项目Lucene和Nutch的作者。重要的是Hadoop也是开源的。

Hadoop项目创始人Doug Cutting
什么是MapReduce?
拿新浪微博来举个例子,用户每分钟都会生成几万甚至几十万条信息,这个数据量是非常大的。新浪的数据中心有大量的服务器在生成数据,那么我们如何能够快速地访问这些数据?Hadoop使用的就是MapReduce,它的概念第一次出现也是在Google的论文中。MapReduce遵循“分治法”,数据以KeyValue对来组织。它以并行的方式来处理一个计算节点中的数据,这些数据会分布在许多不同的系统当中。对数据进行整理分类之后进行处理。
Hadoop MapReduce的影响
针对一个标准PC服务器,Hadoop将连接到所有的服务器然后将数据分布到这些节点当中。它将所有的节点视为一个大的文件系统,对数据进行存储和处理,因此它是一个100%的分布式文件系统。如果数据量增加到之前系统无法承受的情况,我们还可以增加额外的节点,让整个系统的扩展性更好。Hadoop MapReduce在成本方面同商业软硬系统相比具有一定优势,因为其开源的属性。随着Hadoop的逐渐普及,相信技术人员成本也会进一步降低,Hadoop的价值也将凸显出来。此外,Hadoop还是NoSQL数据库的主要部署架构之一。
目前,Hadoop项目已经由Yahoo公司转移到了Hortonworks,这是一家硅谷风投公司Benchmark Capital与前者合资组建的公司,他们将继续开发该技术。雅虎软件工程副总裁Eric Baldeschwieler将担任Hortonworks公司CEO。而最近,Hadoop的支持者之一社交网站Facebook也迁移了30 PB的Hadoop集群。除了开源社区的支持,Hadoop也得到了商业软件供应商的青睐,据笔者了解,越来越多的传统数据库厂商也在他们的产品中逐渐增加Hadoop特性,其中包括了Oracle、Teradata等。以下厂商的数据仓库和BI产品已经添加了对Hadoop和MapReduce的支持:
总之,如果Hadoop MapReduce以及NoSQL等技术得到广泛运用的话,传统SQL数据库系统不能解决的非结构化数据将不再成为问题。而大数据概念不断推广,Hadoop与商业系统的搭配将成为一种必然的趋势,数据集成软件也将在数据挖掘等场景中扮演重要的角色。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。
-
创建NoSQL数据建模符号 企业架构师亲自上阵
新兴的NoSQL数据风格促使创新的应用程序快速发展,但NoSQL同时也带来了挑战。NoSQL系统能够快速投入生产,有时甚至根本不用创建任何的前期模式。
-
深入理解Amazon DynamoDB NoSQL云数据库服务
Amazon DynamoDB NoSQL云数据库即服务主要为跨移动设备、网页web端、游戏、数字营销和物联网领域的应用提供支持。
-
如何使用SAP HANA Vora规划HANA大数据战略?
SAP努力将HANA定位为一个大数据平台。要制定可行的大数据战略,您需要了解诸如SAP HANA Vora之类的工具。