当前位置：移动技术网 > IT编程>数据库>Mysql > 数据仓库ETL工具箱——数据流主线详解

数据仓库ETL工具箱——数据流主线详解

2020年07月17日 | 移动技术网IT编程 | 我要评论

上篇说到ETL的设计需要同时考虑两条主线，一条是数据流主线，一条是规划与设计主线。二者其一是数据为主导，从数据的抽取、清洗、规格化到加载给“最终用户”；其二是以业务为主导，从需求现状、架构、开发实现到测试发布。两者相辅相成缺一不可啊。

下面我们来详细说说数据流主线每一步的含义。

数据流主线

抽取

数据抽取是ETL工具的第一步。企业中存在许多业务系统，包括财务系统、ERP系统、CRM系统、OA系统等。每个系统都有支撑业务的独立数据库，即使为了系统间的交互有些场景共用同一套数据库，大部分也是由不同的实例去管理的，因此这些系统产生的数据（无论是结构化数据还是日志）都需要放到数据仓库，有ODS层从各个业务系统的数据库和日志等文件系统中将数据进行抽取。而抽取的前提是ETL有连接和读取这些业务数据的权限，能够调度系统资源去截取后台的通知信息。当然，抽取时我们根据需求可以选择全量或是增量，所谓增量抽取就是取当天（定义某个时间节点）数据的快照，在设计时要有创建时间和修改时间等标记字段。

清洗

数据清洗的目的是保证数据仓库中数据的质量，清洗时将null、重复数据等脏数据进行过滤，并且将不同源的相同字段进行统一。包括列属性和设计规范以及数值的规范。此外，在清洗这一层还要进行元数据的管理，元数据是描述数据的数据，也就是说，元数据可以直接的体现数据质量，关于元数据的治理后面我们会详细介绍。此外需要强调的一点是，数据流主线的每一个步骤都应该进行数据集结，所谓集结可以简单的理解为数据落盘，这种操作可以保证数据在下一阶段处理失败时不至于从头来过。不仅是主线的四个步骤需要集结，任何有可能被下游调用的中间结果都应该进行数据集结。

规格化

规格化就是将数据从维度进行整理。比如在维表中要有相应的业务标志，针对不同的业务可能有不同维度的标志，因此数据仓库中的数据有时也不可避免的有冗余。在事实表中，要将数据针对业务度量和绩效的指标进行规格化。数据间的血缘关系要规格化。之后，要讲这些规格化的数据再次进行集结。

加载

书中代言，数据加载就好比将各种食材通过加工处理做成了一盘好菜，最终要把菜端给客户去品尝一样。数据加载则是将处理好的数据交给数据分析部门或者数据展示亦或者回调给业务系统。加载的数据根据不同的维度进行使用，但是须要知道，数据是有生命周期的，即使再健壮的数据终有尘埃落定的一天，因此加载时要考虑时间维度、退化维度以及子维度。数据的加载可以理解为最终数据的使用，关于这一点我们后续会详细介绍。

困得不行了，先睡了，下一篇介绍规划与设计主线。。。。。。

本文地址：https://blog.csdn.net/will001449/article/details/107372435

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HttpRunner+Mysql查询实现接口测试

一、框架版本httprunner 2.X二、实现场景-实现充值接口测试首先登陆鉴权，获取token后，运行“充值... [阅读全文]
为什么我推荐Nginx作为后端服务器代理(原因解析)

1. 前言我们真实的服务器不应该直接暴露到公网上去，否则更加容易泄露服务器的信息，也更加容易受到攻击。一个比较“平民化”的方案是使用nginx反向代理它。今天就... [阅读全文]
使用Nginx搭建流媒体服务器实现直播功能

写在前面最近几年，直播行业比较火，无论是传统行业的直播，还是购物、游戏、教育，都在涉及直播。作为在互联网行业奋斗了多年的小伙伴，你有没有想过如果使用nginx搭... [阅读全文]
服务器Centos部署MySql并连接Navicat过程详解

(1)服务器配置：[root@localhost ~]# cd /usr/local/src/[root@localhost src]# wget http:/... [阅读全文]
mysql 8.0.21 安装配置方法图文教程

记录了mysql 8.0.21 的安装配置方法，分享给大家。一、下载1、下载安装包mysql直接点击链接也可以下载：2、解压压缩包解压到安装的目录：3、在此目录... [阅读全文]
浅谈mysql通配符进行模糊查询的实现方法

在mysql数据库中，当我们需要模糊查询的时候，我们会使用到通配符。首先我们来了解一下2个概念，一个是操作符，一个是通配符。操作符like就是sql语句中的操... [阅读全文]
MySQL的视图和索引用法与区别详解

mysql的视图简单来说mysql的视图就是对select 命令的定义的一个快捷键，我们查询时会用到非常复杂的select语句，而这个语句我们以后还会经常用到，... [阅读全文]
mysql 8.0.21免安装版配置方法图文教程

六步安装mysql（免安装包的才可以选安装位置），供大家参考，具体内容如下第一步：下载mysql压缩包mysql直接点击链接也可以下载：第二步：解压到自己想要安... [阅读全文]
apollo5.5.0技术文档

快速入门指南校准指南Apollo目前提供强大的校准服务，可满足您从LiDAR，IMU到摄像机的校准要求。百度还可... [阅读全文]
业界首发｜阿里云重磅发布云原生架构白皮书

2020 年 7 月 21 日，由阿里云 20+ 位云原生技术专家共同编撰的《云原生架构白皮书》正式对外发布。作... [阅读全文]