当前位置：移动技术网 > IT编程>脚本编程>Python > KNN算法(K近邻算法)实现与剖析

KNN算法(K近邻算法)实现与剖析

2020年03月27日 | 移动技术网IT编程 | 我要评论

蔡贞安老公,偷性深夜听房人,名门娴妻

knn（k-nearest neighbors）算法，又称k近邻算法，单从字面意思我们就能知道，这个算法肯定是和距离有关的。

knn算法的核心思想：

在一个特征空间中，如果某个样本身边和他最相邻的k个样本大多都属于一个类别，那么这个样本在很大程度上也属于这个类别，且该样本同样具有这个类别的特性。

其实说白了就是“近朱者赤、近墨者黑”，你身边离你最近的k个人中大多数人都属于某一个类别，那么你很有可能也属于这一个类别(当然，用人来举例子不是很恰当)

该方法在“分类决策”上只依据最近邻的k个样本的类别来判断待分样本的类别，k通常是不大于20的一个整数，具体怎么选取，这个也很有学问，后边会详细讲解。

上边说了，一个待分样本的所属的类别，很大程度上取决于和他最近的k个样本的类别，那么这个“最近”是如何计算出来的呢，比如一堆人站在一块儿，我们可以可以轻易的计算出

一个人距他身边的每个人的距离，那么数据呢？其实道理是一样的，我们可以使用欧拉距离来计算，其实我们在中学几何中学习二维平面内两点间距离、三维空间内两点间距离时已经学过了，

我们可以将二维数据看作是这两个点都只有两个特征，三维数据可以看成是有三个特征，那么当一组数据中每个数据都有多个特征时，我们也可以将其看作是多维空间中的一个点，

也同样可以使用欧拉距离来计算。

当拓展到多个特征之后，就会简写成上边红框中的公式，这在机器学习算法中较为常见。

knn算法的计算步骤：

（1）计算待分类数据与各个样本数据之间的距离

（2）对距离进行排序

（3）选取距离最小的前k个点

（4）统计前k个点所属的类别

（5）返回前k个点出现频率最高的类别做为待分类数据的预测分类

手动封装一个knn算法：

import math
import numpy as np
from collections import counter

class nkkclass(object):

    def __init__(self, k):
        # 初始化knn类属性
        assert k > 0, "常数k需为正整数"
        self.k = k
        self._x_train = none  # 私有的训练特征数组
        self._y_train = none  # 私有的训练标签向量


    def fit(self, x_train, y_train):
        # 根据训练特征数组x_train和标签向量y_train来训练模型(当然，knn算法中是不需要训练模型的)
        self._x_train = x_train
        self._y_train = y_train

    def predict(self, x_predict):
        # 传入待预测的特征数据集x_predict,返回这个特征数据集所对应的标签向量
        y_predict = [self._predict(i) for i in x_predict]
        return y_predict

    def _predict(self, i):
        # 给定单个特征数据，根据计算欧拉距离，返回预测标签
        # 利用欧拉距离计算两点间距离
        distances = [ math.sqrt(np.sum((x_train - i)**2))  for x_train in  self._x_train]
        nearset = np.argsort(distances)  #将数组升序排序，然后提取其所对应的索引index进行返回
        # 根据索引取出标签向量中的值
        topk_y = [ self._y_train[index] for index in nearset[:self.k]]
        # 统计array中每个元素出现频率，n=1表示取出出现频率最高的那个元素
        votes = counter.most_common(n=1)[0][0]
        return votes

　　def accuracy_score(self, y_test, y_predict):
　　　　# 根据train_test_split得到的y_test和预测得到的y_predict计算分类准确度
　　　　return sum(y_true == y_predict) / len(y_true)

　　def score(self, x_test, y_test):
　　　　# 根据 train_test_split拆分出来的x_test,y_test直接计算分类准确度
　　　　y_predict = self.predict(x_test)
　　　　return self.accuracy_score(y_test, y_predict)

上边这个类其实就是模仿着 scikit-learn机器学习库中封装的的knn算法来写的。

下边我们来加载 sklearn 库中自带的鸢尾花数据集来测试一下吧

我们获取到数据集后，并不能直接将所有数据集都作为训练数据集，还是需要留下一小部分作为测试数据集的，所以又牵扯到train_test_split的问题，而且鸢尾花数据集已经默认排过序了，

所以我们在进行train_test_split之前还需要先将特征数据集和标签向量进行乱序才行的。

其实这个train_test_split过程，在sklearn中已经封装好了，可以直接调用。

from sklearn.model_selection import train_test_split

train_test_split函数有4个参数，并且返回四个返回值：

4个参数：

train_data:需要被拆分的特征数组

train_target:需要被拆分的标签向量

test_size:如果是浮点数，在0-1之间，表示测试数据集占总数据集的百分比，如果是整数，代表测试数据集的行数。

random_state:随机种子，默认为none

4个返回值：

x_train 训练特征数组

x_test 测试特征数组

y_train 训练标签向量

y_test 测试标签向量

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=666)

接下来调用sklearn库，直接使用knn算法对鸢尾花数据集进行预测，计算分类准确度：

# 加载sklearn库中knn算法的类
from sklearn.neighbors import kneighborsclassifier
# 加载sklearn自带的数据包
from sklearn import datasets
# 加载sklearn自带的train_test_split函数
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


# 加载数据包中自带的小数据集(鸢尾花数据集)
iris = datasets.load_iris()
x = iris.data  # 数据集的特征矩阵
y = iris.target  # 数据集的标签向量

# 将数据集拆分，二八分
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=5)

# 实例化，n_neighbors就是knn算法中的那个k
knn_classifier = kneighborsclassifier(n_neighbors=6)
knn_classifier.fit(x_train, y_train)  # 对训练数据集进行拟合

predict_y_test = knn_classifier.predict(x_test)  # 对测试的特征数组进行预测
# 针对train_test_split得到的y_test和预测出来的标签向量进行计算分类准确度
classification_accuracy = accuracy_score(y_test, predict_y_test)
print(classification_accuracy)
# 针对train_test_split得到的测试用的特征数组和标签向量，直接计算其分类准确度(不用先计算出测试标签向量)
classification_accuracy = knn_classifier.score(x_test, y_test)
print(classification_accuracy)

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

KNN算法(K近邻算法)实现与剖析

2020年03月27日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论