上文书我们说到,大英雄ETL手持两把钢鞭,一条上刻着:需求/现状 -> 架构 -> 实现 -> 测试/发布;另一条隐约闪现着:抽取 -> 清洗 -> 规格化 -> 提交 的字样。大英雄闷闷不乐,因为这俩家伙事儿不一样长。。。。。。
为什么ETL设计时是这两条线并存。其一我们从名字上就能看出,“E”(抽取)、“T”(转换)、“L”(加载),说的就是数据流的处理,这条线也是ETL的功能主线;而ETL的设计使用是要针对不同企业的不同场景,因此没有一种ETL工具集能完全100%的符合两家不同的企业使用,因此规划和设计主线就显得至关重要。好比一个企业没有确定业务运营模式就架上各种复杂的IT技术,最终的结果也只能是“知识的诅咒”,无法实现企业的价值。为了形象数据流主线和规划与设计主线,书中给了两幅图,便于形象化理解两条主线的内容:
图一 数据流主线
图二 规划与设计主线
由于数据流主线是大家耳熟能详的,因此我们先从数据流主线说起
抽取的步骤包括:
清洗的步骤包括:
规格化的步骤包括:
ETL的加载包括:
由于篇幅限制,以上详情我们下回分解!
本文地址:https://blog.csdn.net/will001449/article/details/107330358
如对本文有疑问, 点击进行留言回复!!
同事牛逼啊,写了个隐藏 bug,我排查了 3 天才解决问题!
【JavaScript笔记(一)】万丈高楼平地起 - 基本概念篇
轻松解决 org.apache.taglibs.standard.tlv.JstlCoreTLV 困惑
网友评论