接上文:处理大数据挑战:分布式计算的作用 大数据挑战需要管理监督 对于一些组织来说,管理和分析超大规模数据集的最大挑战之一就是搜索可以带来商业利益的有价值的信息,决定哪些数据可以被丢弃。 例如:UPMC是一家总部位于匹兹堡的医疗保健网络机构,它拥有20多家医院和超过五万名员工,该机构发现最近几年的数据存储突飞猛进地增长。William Costantini是该公司综合业务中心的副主任,他认为很大程度上是因为员工们不敢删除任何信息。 Costantini说:“目前最大的问题是要弄清楚哪些你可以清除,哪些你不能清除,因为每个人都害怕担责任和被起诉。
每个人都不敢丢弃任何信息或去掉任何……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
接上文:处理大数据挑战:分布式计算的作用
大数据挑战需要管理监督
对于一些组织来说,管理和分析超大规模数据集的最大挑战之一就是搜索可以带来商业利益的有价值的信息,决定哪些数据可以被丢弃。
例如:UPMC是一家总部位于匹兹堡的医疗保健网络机构,它拥有20多家医院和超过五万名员工,该机构发现最近几年的数据存储突飞猛进地增长。William Costantini是该公司综合业务中心的副主任,他认为很大程度上是因为员工们不敢删除任何信息。
Costantini说:“目前最大的问题是要弄清楚哪些你可以清除,哪些你不能清除,因为每个人都害怕担责任和被起诉。每个人都不敢丢弃任何信息或去掉任何内容。同时,每个人都想精打细算把数据量降下来。”
除了大数据量的调整,组织还要面临日益普及的“数据沙箱”,它使得数据分析师们要在信息子集上探索和体验,这些信息通常来自外部数据仓库。分析师们还表示,公司需要对沙箱保持密切关注,确保他们不会形成各不相容的数据“烟囱”。
此外,用来存储非事务形式大数据的数据库和Hadoop安装,通常是由独立的IT部门应用开发人员设置的。Adrian在BI首脑峰会上说:“这是由外面的人做的,通常IT关注的焦点是不同的工具。已管理妥善可能是太慷慨的一个说法了。”
他补充说,Gartner公司的观点是,能把那些数据类型整合到统一信息管理基础设施中的组织将胜过那些做不到这一点的组织。
翻译
TechTarget特邀编辑。2003年入软件行业,熟悉软件过程所有环节,对机构信息化的各方面有深入理解和实践经验。现就职于某互联网创业公司,目前关注互联网分布式系统架构和机器学习。喜欢传统文化社科哲学(尤喜《周易》、《老子》),喜健身喜抓举(具备抱人引体向上的能力),喜欢中国象棋(具备盲棋1对2的能力)。
相关推荐
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。
-
如何使用SAP HANA Vora规划HANA大数据战略?
SAP努力将HANA定位为一个大数据平台。要制定可行的大数据战略,您需要了解诸如SAP HANA Vora之类的工具。
-
GPU技术仅局限于游戏领域?当心大数据应用的小船说翻就翻
GPU技术的使用是一些机器学习应用的前沿和核心。Facebook,百度、亚马逊和其他一些公司正在使用的GPU集群来研究深层神经网络相关的机器学习应用程序。
-
Big Data Discovery或将助力Oracle回归BI魔法象限
Oracle在Gartner公司商业智能分析平台“魔力象限”中连续上榜十年以后,在2016年并未上榜,Oracle公司失去了在魔力象限的位置可能会影响未来的选择。