当前位置：移动技术网 > IT编程>开发语言>正则 > 【机器学习】数据降维

【机器学习】数据降维

2020年07月07日 | 移动技术网IT编程 | 我要评论

一、特征选择

1、特征选择是什么

1）什么是特征？

鸟：羽毛颜色、眼睛宽度、是否有爪子、爪子长度

2）特征选择是什么

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变或不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。

主要方法（三大武器）：Filter(过滤器)：VarianceThreshold

Embedded(嵌入式)：正则化、决策树

Wrapper(包裹式)

3）特征选择原因

冗余：部分特征的相关度高，容易消耗计算性能

噪声：部分特征对预测结果有影响

2、sklearn特征选择API

sklearn.feature_selection.VarianceThreshold

VarianceThreshold语法

● VarianceThreshold(threshold=0.0)

● 删除所有低方差特征

● Variance.fit_transform(X)
● X:numpy array格式的数据[n_samples,n_features]

● 返回值：训练集差异低于threshold的特征将被删除。

● 默认值是保留所有非零方差特征，即删除所有样本。

● 中具有相同值的特征。

代码例子：

# coding:utf-8

from sklearn.feature_selection import VarianceThreshold


def var():
    variance= VarianceThreshold(threshold=0.0)
    data = variance.fit_transform([[0, 2, 0, 3],
                                   [0, 1, 4, 3],
                                   [0, 1, 1, 3]])
    print(data)


def main():
    var()


if __name__ == '__main__':
    main()

输出：

[[2 0]
 [1 4]
 [1 1]]

3、其他特征选择方法

● 神经网络

二、主成分分析

1、sklearn主成分分析API

sklearn.decompostion

2、PCA是什么

本质：PCA是一种分析、简化数据集的技术

目的：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

作用：可以削减回归分析或者聚类分析中特征的数量。

场景：特征数量达到上百的时候，可以考虑PCA进行数据简化。

效果（副作用）：数据也会改变，特征数量也会介绍。

3、PCA举例

4、PCA语法

● PCA(n_components=None)

● 将数据分解为较低维数空间

● PCA.fit_transform(X)

● X:numpy array格式的数据[n_samples,n_features]

● 返回值：转换后的指定维度的array

代码例子：

# coding:utf-8

from sklearn.decomposition import PCA


def pca():
    pca = PCA(n_components=0.9)
    data = pca.fit_transform([[2, 8, 4, 5],
                              [6, 3, 0, 8],
                              [5, 4, 9, 1]])
    print(data)


def main():
    pca()


if __name__ == '__main__':
    main()

输出：

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]

本文地址：https://blog.csdn.net/kogodlife/article/details/107136764

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

相关文章:

JAVA 正则表达式陈广佳版本(超详细)

在sun的java jdk 1.40版本中，java自带了支持正则表达式的包，本文就抛砖引玉地介绍了如何使用java.util.regex包。　　可粗略估计一下... [阅读全文]
一文秒懂python正则表达式常用函数

导读：正则表达式是处理字符串类型的"核武器"，不仅速度快，而且功能强大。本文不过多展开正则表达式相关语法，仅简要介绍 python中正则表达式常用函数及其使... [阅读全文]
Python常用的正则表达式处理函数详解

正则表达式是一个特殊的字符序列，用于简洁表达一组字符串特征，检查一个字符串是否与某种模式匹配，使用起来十分方便。在python中，我们通过调用re库来使用re模... [阅读全文]
linux grep与正则表达式使用介绍

grep （缩写来自globally search a regular expression and print）是一种强大的文本搜索工具，它能使用特定模式匹配... [阅读全文]
linux grep不区分大小写查找字符串方法

grep用来过滤字符串信息，grep默认对字母大小写敏感，不过可以通过选项对grep屏蔽大小写敏感，该选项为 -i。一、查看grep工具版本方法图1 grep版... [阅读全文]
解析正则表达式中的.*，.*?，.+?的含义

1. .*. 表示匹配除换行符 \n 之外的任何单字符，*表示零次或多次。所以.*在一起就表示任意字符出现零次或多次。没有?表示贪婪模式。比如a.*b，... [阅读全文]
正则表达式+Python re模块详解

正则表达式（regluar expressions）又称规则表达式，在代码中常简写为res，regexes或regexp（regex patterns）。它本质... [阅读全文]
浅谈js正则字面量//与new RegExp的执行效率

前几天谈了正则匹配 js 字符串的问题：《》和《》。里面讲到了优化正则起到提升性能的问题，但是能提升多少呢？于是我去测试了，发现tmd几乎微乎其微，我用1千... [阅读全文]
浅谈js正则之test方法bug篇

其实我很少用这个，所以之前一直没注意这个问题，自从落叶那厮写了个变态的测试我才去看了下这东西下面的代码都是在chrome的f12下调试的，大家可以研究一下先来看... [阅读全文]
js 正则学习小记之匹配字符串字面量优化篇

昨天在《js 正则学习小记之匹配字符串字面量》谈到 /"(?:\\.|[^"])*"/ 是个不错的表达式，因为可以满足我们的要求，所以这个表达式可用，但... [阅读全文]

网友评论


验证码：

移动技术网