当前位置：移动技术网 > IT编程>脚本编程>Python > 机器学习个人笔记——（二）线性回归，最小二乘法和梯度下降

机器学习个人笔记——（二）线性回归，最小二乘法和梯度下降

2020年07月26日 | 移动技术网IT编程 | 我要评论

线性回归——最小二乘和梯度下降

一、线性回归

1.概念
2.损失函数

二、最小二乘法
三、梯度下降法
四、代码

一、线性回归

1.概念

线性回归，能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候，就能够预测出一个合理的值

如下图，平面中存在200个样本，需找出一条合理的直线对其进行拟合
在这里插入图片描述
通过线性回归，拟合直线效果如下

在上述二维平面中，需要做的就是找出一条最佳拟合直线方程，形式如下：
$\begin{aligned} h(x) & = w_{0}x_{0}+w_{1}x_{1}{（通常x_{0}为1）}\\{\therefore 直线表达式为=>}h(x)& = w_{0}+w_{1}x_{1} \end{aligned}$
通过不同的算法求解 $w_{0}，w_{1}$ 得到直线方程， $x_{0}$ 代表第一个特征值， $x_{1}$ 代表第二个特征值
实际中，若舍去特征值 $x_{0}$ , 则得到的直线恒过原点，而为了使直线拟合度更高，加入了常数项 $w_{0}$ , 相当于 $y=kx+b$ 中的 $b$ ，为了方便与 $w_{0}，w_{1}$ 相乘相加， $x_{0}$ 是人为添加的，且恒为1，直线可以看成 $y=kx+b*1=>h= w_{0}+w_{1}x_{1}$

由此可得，在一般情况下，样本可能具有n个特征值， $x_{1},x_{2},...,x_{n}$ ,加入常数项 $x_{0}=1$ ，则需求解的超平面方程如下:
$\begin{aligned} h(x)& = w_{0}x_{0}+w_{1}x_{1}+w_{2}x_{2}+...+w_{n}x_{n}{（通常x_{0}为1）} \end{aligned}$
需求解 $w_{0},w_{1}x,w_{2},..w_{n}$ 的值以确定该方程。

为了方便表示该方程，设w参数向量为
$\mathbf{w^{T}}=\begin{bmatrix} w_{0}&w_{1} &w_{2} &...&w_{n} \end{bmatrix}$
样本特征值为:
$\mathbf{x^{T}}=\begin{bmatrix} x_{0}&x_{1} &x_{2} &...&x_{n} \end{bmatrix}{(x_{0}=1)}$

$h(x)$ 可表示为:
$h(\mathbf{x})=\mathbf{w^{T}x}$

目标: 求解 $\mathbf{w}$ 向量的最优解

2.损失函数

通过建立一个损失函数来衡量估计值和实际之间的误差的大小，将最小化损失函数作为一个约束条件来求出参数向量的最优解。
样本集为:
$\mathbf{X} =\begin{bmatrix} x_{10}&x_{20}&...&x_{m0}\\ x_{11}&x_{21}&...&x_{m1}\\ ...&...&...&...\\ x_{1n}&x_{2n}&...&x_{mn} \end{bmatrix}$
$m$ 为样本数量， $n$ 为特征值数量
单个样本向量可以如下
$\mathbf{x^{1}}=\begin{bmatrix} x_{10}\\x_{11}\\...\\x_{1n}\\ \end{bmatrix},\mathbf{x^{2}}=\begin{bmatrix} x_{20}\\x_{21}\\...\\x_{2n}\\ \end{bmatrix},...,\mathbf{x^{m}}=\begin{bmatrix} x_{m0}\\x_{m1}\\...\\x_{mn}\\ \end{bmatrix}$

第i个样本向量如下：
$\mathbf{x^{i}}=\begin{bmatrix} x_{i0}\\x_{i1}\\...\\x_{in}\\ \end{bmatrix}$

第i个样本的预测值为:
$h(\mathbf{x^{i}})=\mathbf{w^{T}x^{i}}$

损失函数如下：
$\begin{aligned} J(\mathbf{w}) &= \frac{1}{2m}\sum_{i = 1}^{m}(\mathbf{w^{T}x}-y^{i})^{2}\\ &=\frac{1}{2m}\sum_{i = 1}^{m}(h(\mathbf{x^{i}})-y^{i})^{2}\\\\{求}&\min J(\mathbf{w}) \end{aligned}$

$y^{i}$ 为某一个样本的实际值， $h(\mathbf{x^{i}})$ 为预测值， $J(\mathbf{w})$ 函数即为误差的平方和，求当 $J(\mathbf{w})$ 取最小时， $\mathbf{w}$ （参数向量）的值， $\frac{1}{2}$ 为常数项对最小值无影响，方便后续求导

二、最小二乘法

为了方便计算，对样本集特征矩阵X，参数向量w，以及y向量做以下规定：

样本集特征矩阵X
$\begin{aligned} \mathbf{X} & = \begin{bmatrix} x_{10}&x_{11}&x_{12}&...&x_{1n}\\ x_{20}&x_{21}&x_{22}&...&x_{2n}\\ ...&...&...&...&...\\ x_{m0}&x_{m1}&x_{m2}&...&x_{mn}\\ \end{bmatrix}\\\\\mathbf{X^{i}} &= \begin{bmatrix} x_{i0}&x_{i1}&x_{i2}&...&x_{in} \end{bmatrix} \end{aligned}$

参数向量w:
$\mathbf{W}=\begin{bmatrix} w_{0}\\w_{1} \\w_{2} \\...\\w_{n} \end{bmatrix}$
XW矩阵相乘:
$\mathbf{XW}= \begin{bmatrix} h_{1} \\ h_{2}\\ h_{3}\\...\\ h_{m} \end{bmatrix}$

$h_{i}$ 为第i个样本预测值

y向量:
$\mathbf{Y}=\begin{bmatrix} y_{1}\\y_{2} \\y_{3} \\...\\y_{m} \end{bmatrix}$

$y_{i}$ 为样本实际值

损失函数： $\begin{aligned} J(\mathbf{w}) =\sum_{i = 1}^{m}(h(\mathbf{x^{i}})-y^{i})^{2} \end{aligned}$
可以表示为 $：J(\mathbf{W})=(\mathbf{Y}-\mathbf{XW})^{T}(\mathbf{Y}-\mathbf{XW})$

对 $\mathbf{W}$ 求导得：

$\frac{\partial J(\mathbf{W})}{\partial \mathbf{W}} =-2\mathbf{X^{T}Y}+2\mathbf{X^{T}XW}$

令： $\frac{\partial J(\mathbf{W})}{\partial \mathbf{W}} =-2\mathbf{X^{T}Y}+2\mathbf{X^{T}XW}=0$

相当于对J(W)中，分别对w0,w1,w2,…,wn求偏导，令偏导等于0，解出w0,w1,w2…,wn

解得： $\mathbf{W}=(\mathbf{X^{T}X})^{-1}\mathbf{X}\mathbf{Y}$

即求得最优参数向量W

三、梯度下降法

使用最小二乘法效率可能比较低，需解出n(特征值数量)个方程，可使用梯度下降法，对w参数向量进行迭达

梯度下降：沿着增长最快的相反方向，移动 $\alpha$ 的步长，即逐步递减值最低值，迭代公式如下
$\large w=w-\alpha \nabla {f}$

$\nabla {f}$ 表示增长最快的方向，使用减号表示递减(梯度下降)，若加表示递增(梯度上升)

使用梯度下降(或上升)时，一般给定w一个初始值，再通过不断迭代得到最优值
此时即需求 $J(\mathbf{w})$ 的梯度, 需分别对对 $w_{i}$ 求偏导
$\large \nabla {f}=\begin{bmatrix} \frac{\partial\mathrm J(\mathbf{w})}{\partial w_{0}}\\ \frac{\partial\mathrm J(\mathbf{w})}{\partial w_{1}}\\ \frac{\partial\mathrm J(\mathbf{w})}{\partial w_{2}}\\ ...\\ \frac{\partial\mathrm J(\mathbf{w})}{\partial w_{n}}\\ \end{bmatrix}$

通过对对损失函数 $J(\mathbf w)$ 求偏导后（参考梯度上升），梯度可以表示为：

$\large \nabla {f}=-\frac{1}{m} \begin{bmatrix} \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{i0}\\ \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{i1}\\ \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{i2}\\ ......\\ \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{in}\\ \end{bmatrix}$

所以代入原方程，
梯度上升算法的迭代过程： $\alpha$ 为步长 $(\alpha >0)$
$\begin{aligned} \mathbf{w} &=\mathbf{w} -\alpha \nabla f\\\\&=\begin{bmatrix} w_{0}\\ w_{1}\\ w_{2}\\...\\w_{n} \end{bmatrix}+\alpha \frac{1}{m}\begin{bmatrix} \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{i0}\\ \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{i1}\\ \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{i2}\\ ......\\ \sum_{i=1}^{m}(y_{i}-h(\mathbf{w^{T}x_{i}}))x_{in}\\ \end{bmatrix} \end{aligned}$
经过上述不断迭代的过程，最终得到一个合适的 $\mathbf{w}$ 参数

四、代码

import numpy as np
#from matplotlib import pyplot as plt

def load_datas(filename):
    with open(filename, 'r') as fr:
        data_mat=[]
        data_labels=[]
        for line in fr:
            curr_line=line.strip().split('\t')
            data_mat.append(list(map(float, curr_line[:-1])))
            data_labels.append(float(curr_line[-1]))
    return np.mat(data_mat), np.mat(data_labels)


def get_weights0(datas, labels):
    """
    最小二乘法

    :param datas:
    :param labels:
    :return:weights
    """
    xTx=datas.T*datas
    if(np.linalg.det(xTx)!=0.0):
        weights=xTx.I*datas.T*labels.T
        return weights
    return None


def get_weights1(datas, y_labels, alpha=1, r=300):
    """
    梯度下降法

    :param datas:
    :param labels:
    :return:weights
    """
    shape = datas.shape
    weights=np.ones((shape[1], 1))
    for i in range(r):
        err = y_labels-datas*weights
        weights=weights+(alpha/shape[0])*datas.T*err
    return weights


print('最小二乘法')
data_mat, data_labels = load_datas('ex1.txt')
weights=get_weights0(data_mat, data_labels)
print(weights)
print('梯度下降法')
weights=get_weights1(data_mat, data_labels.T)
print(weights)

本文地址：https://blog.csdn.net/weixin_42582355/article/details/107548744

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

从C语言中读取Python 类文件对象

问题你要写c扩展来读取来自任何python类文件对象中的数据（比如普通文件、stringio对象等）。解决方案要读取一个类文件对象的数据，你需要重复调用 rea... [阅读全文]
Python3爬虫关于代理池的维护详解

我们在上一节了解了代理的设置方法，利用代理我们可以解决目标网站封 ip 的问题，而在网上又有大量公开的免费代理，其中有一部分可以拿来使用，或者我们也可以购买付费... [阅读全文]
Python如何对齐字符串

问题你想通过某种对齐方式来格式化字符串解决方案对于基本的字符串对齐操作，可以使用字符串的 ljust() , rjust() 和 center() 方法。比如：... [阅读全文]
python实现从无序的链表中删除重复项

python实现从无序的链表中删除重复项题目描述:给定一个没有排序的链表，去掉其重复项，并保留原顺序，例如链表... [阅读全文]
python实现Canny与Hough算法

任务说明：编写一个钱币定位系统，其不仅能够检测出输入图像中各个钱币的边缘，同时，还能给出各个钱币的圆心坐标与半径... [阅读全文]
DP-LeetCode221. 最大正方形

1、题目描述https://leetcode-cn.com/problems/maximal-square/在一... [阅读全文]
听课笔记--Python数据分析--Numpy基础及基本应用

'''@Author: Liang@LastEditors: Liang@Date: 2020-07-26 19... [阅读全文]
评价类模型——Tposis法

Tposis法学习笔记适用的范围操作方法第一步 > 将原始矩阵正向化第二步>正向化矩阵标准化第三步&... [阅读全文]
python的platform模块的使用

platform是用来获取操作系统的信息的模块，具体见文档[root@VM_0_9_centos ~]# pyt... [阅读全文]
Python-定时任务APScheduler中两种调度器的区别

概述两种调度器BackgroundScheduler和BlockingScheduler的区别举例说明APSch... [阅读全文]

网友评论


验证码：