在数据库管理技术中,提取、转换、加载(ETL)操作扮演了一个非常重要的角色。根据实际的操作需求,DBA可以通过ETL手段对客户数据有一个全方位的掌控。有一些人认为,ETL只是简单地将数据从多个源系统中提取出来,然后在加载到数据仓库中进行转换和集成。但是在实际操作当中,ETL要比想象的复杂许多,因此DBA需要对它有一个熟练的掌握。
本文就将介绍关于ETL的几点注意事项,希望引起您的足够重视。 良好的ETL中断重启功能 试想这样一个情况,你需要对19个数据加载进行转换,而由于某些原因在进行到第9个的时候发生了中断,那么再进行转换的时候你肯定不希望重头再来一遍。所以当遭遇操作中断的时候,能够从……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
在数据库管理技术中,提取、转换、加载(ETL)操作扮演了一个非常重要的角色。根据实际的操作需求,DBA可以通过ETL手段对客户数据有一个全方位的掌控。有一些人认为,ETL只是简单地将数据从多个源系统中提取出来,然后在加载到数据仓库中进行转换和集成。但是在实际操作当中,ETL要比想象的复杂许多,因此DBA需要对它有一个熟练的掌握。本文就将介绍关于ETL的几点注意事项,希望引起您的足够重视。
良好的ETL中断重启功能
试想这样一个情况,你需要对19个数据加载进行转换,而由于某些原因在进行到第9个的时候发生了中断,那么再进行转换的时候你肯定不希望重头再来一遍。所以当遭遇操作中断的时候,能够从中断点继续进行操作的功能是十分必要的。如果ETL操作受阻,报表将得不到及时的更新,导致的结果就是管理人员只能从陈旧的数据中做出决策,想必这是所有人都不愿意看到的。
要解决上述问题,你需要建立一个“记录点”机制。如果任务被迫中断,你可以在记录点上继续完成任务,这有点像过关游戏中的“checkpoint”。因此,在选择ETL解决方案的时候,这样的功能应该是最优先考虑的选项之一。
另外,你还可以利用C语言等编写一个中断处理程序,这个程序将存储ETL操作的进程,它会记录故障点,然后再任务重新开启之前寻找到正确的位置。一个重要的准则,就是数据移动的速度究竟有多快。在这一点上,当评估ETL工具的时候,还需要考虑性能级别和重启功能。
管理快速变更的数据集
为能够顺利运行ETL操作,你所选择的工具应该拥有以下几个功能:
- 处理海量数据;能够将数据以最快地速度从一个地方转移到另一个地方。
- 实时监测交易的变更,并对数据进行同步。
- 能够处理多种数据类型,包括文本、非结构化数据等。
- 利用多处理进行分布式操作以及并行处理。
任何一款自动化ETL工具都必须能够提供最低级别的块复制功能,并拥有非常好的快速变更数据集管理特性。
针对大数据,为Hadoop/Hive/PIG架构建立一个沙箱。你需要有一个轮廓清晰的策略,在这基础上,新一代的大数据架构能够同之前的系统并存。你还需要对团队进行大数据技术培训,以应对新的ETL挑战。或者直接招募新的技术人员,对大数据处理有相关经验的员工,也可以免去一些培训的繁琐任务。
将数据加载到个体数据集市
在没有一个集中化的数据库情况下,拥有数据模板是非常重要的。它们是标准化的接口,每一个个体或者部门数据集市都能够填充。确保你的ETL工具有这样的功能,能够扩展到一个数据仓库平台,将信息从一个数据集市流动到下一个。
作者
翻译
相关推荐
-
Notre Dame对云端SQL Server性能基准的探索实践
确立SQL Server的性能基准,对于云端迁移来说是至关重要的第一步,一位来自于University of Notre Dame 的DBA表示,他正在试图通过数据库监控软件,找出SQL server的性能基准。
-
DBA必须掌握的数据库恢复管理技术
如果没有备份副本,数据库管理员就无法还原数据库,所以DBA在恢复之前倾向于考虑备份是合乎逻辑的。 但是,对我来说,这种逻辑一直是错误的。
-
在HANA上实施SAP BW要做哪些准备?
在HANA上实施SAP BW可以帮助公司利用到HANA的速度和性能优势。不过,CIO及技术团队首先要注意一些关键问题。
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。