当前位置：移动技术网 > IT编程>脚本编程>Python > 深入浅出KNN算法（一）介绍篇

深入浅出KNN算法（一）介绍篇

2019年04月04日 | 移动技术网IT编程 | 我要评论

龚士杰,伤感情书,庄昏晓

一.knn算法概述

knn可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意knn算法是有监督学习中的分类算法，它看起来和另一个机器学习算法kmeans有点像（kmeans是无监督学习算法），但却是有本质区别的。那么什么是knn算法呢，接下来我们就来介绍介绍吧。

二.knn算法介绍

knn的全称是k nearest neighbors，意思是k个最近的邻居，从这个名字我们就能看出一些knn算法的蛛丝马迹了。k个最近邻居，毫无疑问，k的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢？其实啊，knn的原理就是当预测一个新的值x的时候，根据它距离最近的k个点是什么类别来判断x属于哪个类别。听起来有点绕，还是看看图吧。
knn原理1

图中绿色的点就是我们要预测的那个点，假设k=3。那么knn算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。

knn原理2

但是，当k=5的时候，判定就变成不一样了。这次变成红圆多一些，所以新来的绿点被归类成红圆。从这个例子中，我们就能看得出k的取值是很重要的。

明白了大概原理后，我们就来说一说细节的东西吧，主要有两个，k值的选取和点距离的计算。

2.1距离计算

要度量空间中点距离的话，有好几种度量方式，比如常见的曼哈顿距离计算，欧式距离计算等等。不过通常knn算法中使用的是欧式距离，这里只是简单说一下，拿二维平面为例，，二维空间两个点的欧式距离计算公式如下：

二维空间欧式距离

这个高中应该就有接触到的了，其实就是计算（x1,y1）和（x2,y2）的距离。拓展到多维空间，则公式变成这样：

多维空间欧式距离

这样我们就明白了如何计算距离，knn算法最简单粗暴的就是将预测点与所有点距离进行计算，然后保存并排序，选出前面k个值看看哪些类别比较多。但其实也可以通过一些数据结构来辅助，比如最大堆，这里就不多做介绍，有兴趣可以百度最大堆相关数据结构的知识。

2.2 k值选择

通过上面那张图我们知道k的取值比较重要，那么该如何确定k取多少值好呢？答案是通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据），从选取一个较小的k值开始，不断增加k的值，然后计算验证集合的方差，最终找到一个比较合适的k值。

通过交叉验证计算方差后你大致会得到下面这样的图：
k值与error

这个图其实很好理解，当你增大k的时候，一般错误率会先降低，因为有周围更多的样本可以借鉴了，分类效果会变好。但注意，和k-means不一样，当k值更大的时候，错误率会更高。这也很好理解，比如说你一共就35个样本，当你k增大到30的时候，knn基本上就没意义了。

所以选择k点的时候可以选择一个较大的临界k点，当它继续增大或减小的时候，错误率都会上升，比如图中的k=10。具体如何得出k最佳值的代码，下一节的代码实例中会介绍。

三.knn特点

knn是一种非参的，惰性的算法模型。什么是非参，什么是惰性呢？

非参的意思并不是说这个算法不需要参数，而是意味着这个模型不会对数据做出任何的假设，与之相对的是线性回归（我们总会假设线性回归是一条直线）。也就是说knn建立的模型结构是根据数据来决定的，这也比较符合现实的情况，毕竟在现实中的情况往往与理论上的假设是不相符的。

惰性又是什么意思呢？想想看，同样是分类算法，逻辑回归需要先对数据进行大量训练（tranning），最后才会得到一个算法模型。而knn算法却不需要，它没有明确的训练数据的过程，或者说这个过程很快。

knn算法的优势和劣势

了解knn算法的优势和劣势，可以帮助我们在选择学习算法的时候做出更加明智的决定。那我们就来看看knn算法都有哪些优势以及其缺陷所在！

knn算法优点

简单易用，相比其他算法，knn算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
模型训练时间快，上面说到knn算法是惰性的，这里也就不再过多讲述。
预测效果好。
对异常值不敏感

knn算法缺点

对内存要求较高，因为该算法存储了所有训练数据
预测阶段可能很慢
对不相关的功能和数据规模敏感

至于什么时候应该选择使用knn算法，sklearn的这张图给了我们一个答案。
sklearn算法选择
简单得说，当需要使用分类算法，且数据比较大的时候就可以尝试使用knn算法进行分类了。

ok，本次先对knn算法做一个介绍，下一节解析sklearn的参数，以及k值选取。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：

深入浅出KNN算法（一） 介绍篇