当前位置：移动技术网 > IT编程>数据库>其他数据库 > 大数据预处理综述

大数据预处理综述

2020年04月16日 | 移动技术网IT编程 | 我要评论

数据预处理背景

大数据项目开发流程

数据质量

准确性：数据是正确的，数据存储在数据库中的值对应于真实世界的值。
数据不准确的原因
1. 数据收集设备故障。
2. 数据输入错误。
3. 数据传输过程出错。
4. 命名约定、数据输入、输入字段格式不一致。
相关性：指数据与特定的应用和领域有关。
相关性应用场景
1. 构造预测模型时，需要采集与模型相关的数据。
2. 相同的数据再不同的应用场景，相关性也是不一样的。
完整性：指信息具有一个实体描述的所有必需的部分，在传统关系型数据库中，完整性通常与空值（null）有关。一般包括记录的缺失和记录属性的缺失。
数据不完整原因
1. 涉及隐私，无法获取相关属性。
2. 数据输入时由于人为疏忽。
3. 数据输入时由于机器故障。
时效性：指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。
相关场景：
1. 城市交通。
2. 商品推荐。
一致性：在数据库中，不同地方存储和使用的同一数据应当是等价的，表示数据有相等的值和相同的含义。
常见不一致情况
1. 逻辑不一致。
2. 记录规范不一致：同一个数据，在不同的地方显示存储不一致，比如男女存储。
可信性可解释性
可行性
1. 数据来源的权威性。
2. 数据的规范性。
3. 数据产生的时间。
可解释性
1. 反应数据是否容易理解。

数据预处理目的

数据预处理的目的就是提升数据质量。

重要性：数据预处理是数据挖掘中必不可少的关键一步，更是进行数据挖掘前的准备工作。

目的

达到改进数据的质量，提高数据挖掘过程的准确率和效率。
保证数据挖掘的正确性和有效性。
通过对数据格式和内容的调整，使得数据更符合挖掘的需要。

数据预处理的流程

1. 数据清理

清理脏数据：由于重复录入，并发处理等不规范的操作，导致产生不完整，不准确的，无效的数据。

1.1 缺失值处理

现有数据集中某个或某些属性的值是不完整的。

缺失值处理方法

忽略元组
人工填写
使用全局常量替换空缺值
属性的中心度量来填充
使用于给定元组同一类的所有样本中心度量值
使用最可能的值

1.2 噪声处理

不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。

噪声数据产生

数据收集工具的问题。
数据输入错误。
数据传输错误。
技术的限制。
命名规则不一致。

噪声处理的方法：

分箱法：通过考察数据的近邻值来光滑有序数据值。

举例：8、24、15、41、6、10、18、67、25等9个数。
排序：6、8、10、15、18、24、25、41、67。
分箱：

箱1： 6、8、10
箱2： 15、18、24
箱3： 25、41、67
分别用三种不同的分箱法求出平滑存储数据的值：
平均值：8 箱1： 8,8,8。
中值： 18 箱2： 18,18,18 。
边界值：6、67 箱3：25,25,67，箱中的最大和最小值被视为箱边界。
回归
聚类

2. 数据集成

将互相关联的分布式异构数据源集成到一起，使用户能够以透明的方式访问这些数据源。

2.1 数据集成方法

联邦数据库：各数据源的数据视图，集成为全局模式。
中间件集成：通过统一的全局数据模型，来访问异构的数据源。
数据复制：将各个数据源的数据复制，到同一处，即数据仓库。

2.2 集成过程要处理的问题

实体识别：匹配多个信息源在现实世界中的等价实体。
冗余与相关分析：属性重复，属性相关冗余，元组重复。
数据冲突和检测：对现实世界的同一实体，来自不同数据源的属性定义不同。原因：表示方法，度量单位、编码或比例的差异

3. 数据变换

3.1 转换目的

将数据转换或统一成易于进行数据挖掘的数据存储形式，使得挖掘过程可能更有效。

3.2 方法策略

光滑：去掉数据中的噪音。
属性构造：由给定的属性构造新的属性并添加到属性集中，帮助数据分析和挖掘。
聚集：对数据进行汇总或聚集
规范化：将属性数据按比例缩放，使之落入一个小的特定区间
离散化：数值属性用区间标签或概念标签替换。
由标称数据产生概念分层：属性，如street，可以泛化到较高的概念层，如city或country

4 数据归约

由于在现实场景中，数据集是很庞大的，数据是海量的，在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。

为了帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

4.1 数据归约分类

维归约：用于检测并删除不相关、弱相关或冗余的属性。
数量归约：用替代的、较小的数据表示形式替换原数据，来减少数据量。
数据压缩：用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]