当前位置: 移动技术网 > 科技>人工智能>云计算 > 数据挖掘核心技术揭秘

数据挖掘核心技术揭秘

2018年04月04日  | 移动技术网科技  | 我要评论

一:简介

数据挖掘主要可以分为三类:聚类、分类、回归 Pig SQL脚本语言,生成自定义函数 MATLAB语言 分为主接指令交互和M文件的编程方式 WEKA 机器学习软件 -> Rapodminer R语言的学习方法

二:数学基础

主要需要的数学知识有:概率统计、矩阵理论、相似度计算、线性代数(最小二乘法)

三:数据处理技术

索引技术包括:数据库索引和文本索引(倒排索引) 外排序、MapReduce技术、hash技术(Bloom filter)

四:聚类

聚类与分类的不同在于具有数据特征的选取和提取的过程
> -K均值聚类、K-medoids聚类(划分聚类)
> -BIRCH                  (层次聚类)
离群点挖掘技术:统计、邻近度、密度、聚类、高维数据

五:分类

决策树:求取净现值的期望值大于等于零的概率(采样&分裂)
信息熵、信息增益 ID3算法、C4.5算法 K近邻分类(基于实例的学习)
K近邻算法 — 通过加权重或者近点合并客服数据不对称) K-D树 — 主要应对于K近邻索引->多维空间搜索(范围、最近邻)

支持向量机:实现间隔最大化已得到最优分类,等同求解一个凸二次规划的最优化算法

局限:大规模样本训练、多分类问题 最优决策边界的选取

核函数:将低维不可分数据转化为高维可分

K(xi, xj) = (xi , xj+1)^d

K (xi, xj) = exp (- )

如对本文有疑问, 点击进行留言回复!!

相关文章:

验证码:
移动技术网