大数据项目开发流程
准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。
数据不准确的原因
- 数据收集设备故障。
- 数据输入错误。
- 数据传输过程出错。
- 命名约定、数据输入、输入字段格式不一致。
相关性:指数据与特定的应用和领域有关。
相关性应用场景
- 构造预测模型时,需要采集与模型相关的数据。
- 相同的数据再不同的应用场景,相关性也是不一样的。
完整性:指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(null)有关。一般包括记录的缺失和记录属性的缺失。
数据不完整原因
- 涉及隐私,无法获取相关属性。
- 数据输入时由于人为疏忽。
- 数据输入时由于机器故障。
时效性:指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。
相关场景:
- 城市交通。
- 商品推荐。
一致性:在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
常见不一致情况
- 逻辑不一致。
- 记录规范不一致:同一个数据,在不同的地方显示存储不一致,比如男女存储。
可信性可解释性
可行性
- 数据来源的权威性。
- 数据的规范性。
- 数据产生的时间。
可解释性
- 反应数据是否容易理解。
数据预处理的目的就是提升数据质量。
重要性:数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。
清理脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。
现有数据集中某个或某些属性的值是不完整的。
不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。
分箱法:通过考察数据的近邻值来光滑有序数据值。
举例:8、24、15、41、6、10、18、67、25等9个数。
排序:6、8、10、15、18、24、25、41、67。
分箱: 箱1: 6、8、10
箱2: 15、18、24
箱3: 25、41、67
分别用三种不同的分箱法求出平滑存储数据的值:
平均值:8 箱1: 8,8,8。
中值: 18 箱2: 18,18,18 。
边界值:6、67 箱3:25,25,67,箱中的最大和最小值被视为箱边界。
回归
聚类
将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。
由于在现实场景中,数据集是很庞大的,数据是海量的,在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。
为了帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。
如对本文有疑问, 点击进行留言回复!!
HBase Filter 过滤器之FamilyFilter详解
去 HBase,Kylin on Parquet 性能表现如何?
如何找到Hive提交的SQL相对应的Yarn程序的applicationId
网友评论