当前位置：移动技术网 > IT编程>脚本编程>Python > 机器学习（二）简单逻辑回归python算法+代码（实例：体检阳性阴性预测患不患病）

机器学习（二）简单逻辑回归python算法+代码（实例：体检阳性阴性预测患不患病）

2020年07月05日 | 移动技术网IT编程 | 我要评论

数据集：
在txt文本里面，自己编写三列数行数据就可以，参考下图（由于无法上传，数据无所谓，可以自己编写，主要是实现算法）：
右图是程序运行添加的头部和侧面编号，文本框只有数据，见下左图
在这里插入图片描述
简单算法手写草拟：

python实现：
1、导入python库

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']#显示中文

2、导入数据并标记

path = 'andrew_ml_ex22391逻辑回归数据集\ex2data1.txt'
data = pd.read_csv(path,header=None,names=['体检1','体检2','患病'])

阳性 = data[data['患病'].isin([1])]
阴性 = data[data['患病'].isin([0])]

3、数据可视化

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(阳性['体检1'], 阳性['体检2'], s=50, c='r', marker='o', label='患病')
ax.scatter(阴性['体检1'], 阴性['体检2'], s=50, c='g', marker='s', label='不患病')
ax.legend()
ax.set_xlabel('体检 1 数据')
ax.set_ylabel('体检 2 数据')
plt.show()

结果显示：
在这里插入图片描述
4、①Sigmoid函数和应用梯度下降更新Ѳ
Sigmoid函数：

偏导数：

python代码如下：

# 实现sigmoid函数
def sigmoid(z):
    return 1/(1+np.exp(-z))

#实现代价函数
def Cost(theta,X,y):
    first = np.multiply(-y,np.log(sigmoid(X*theta.T)))
    second = np.multiply((1-y),np.log(1-sigmoid(X*theta.T)))
    return np.sum(first-second)/(len(X))
#t梯度下降
def gradientDescent(X, y, theta, alpha, iters):

    temp = np.matrix(np.zeros(theta.shape))
    parameters = int(theta.ravel().shape[1])
    cost = np.zeros(iters)

    for i in range(iters):
        error = sigmoid(X * theta.T) - y

        for j in range(parameters):
            term = np.multiply(error, X[:, j])
            temp[0, j] = theta[0, j] - ((alpha / len(X)) * np.sum(term))

        theta = temp
        cost[i] = Cost(theta,X,y)

    return theta, cost

# 加一列常数列
data.insert(0, 'Ones', 1)

# 初始化X，y，θ
cols = data.shape[1]
X = data.iloc[:,0:cols-1]
y = data.iloc[:,cols-1:cols]

X = np.matrix(X.values)
y = np.matrix(y.values)
theta = np.matrix(np.array([0,0,0]))

alpha = 0.0001#如果学习率太大会造成梯度上升，得出NAN数值，详见后期专门分析学习率
iters = 1500
g,cost= gradientDescent(X, y, theta, alpha, iters)
print(g,cost)

运行结果：（最后代价函数为0.62909，有点大）
在这里插入图片描述
②利用scipy.optimize.fmin_tnc工具库，不用自己定义，自动应用学习率和迭代最优解
python代码如下：

#实现代价函数
def Cost(theta,X,y):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))
    return np.sum(first - second) / (len(X))

# 加一列常数列
data.insert(0, 'Ones', 1)

# 初始化X，y，θ
cols = data.shape[1]
X = data.iloc[:,0:cols-1]
y = data.iloc[:,cols-1:cols]

X = np.array(X.values)
y = np.array(y.values)
theta = np.zeros(3)
#实现梯度函数
def gradient(theta, X, y):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    parameters = int(theta.ravel().shape[1])
    grad = np.zeros(parameters)

    error = sigmoid(X * theta.T) - y

    for i in range(parameters):
        term = np.multiply(error, X[:, i])
        grad[i] = np.sum(term) / len(X)

    return grad

import scipy.optimize as opt
result = opt.fmin_tnc(func=Cost, x0=theta, fprime=gradient,args=(X,y))


# 用θ的计算结果代回代价函数计算
print(result[0])
print(Cost( result[0],X, y))

运行结果：
在这里插入图片描述
对比得知第②种方法最优
如果想用第①种方法，就要设置个循环，假设代价函数（数据集全部损失函数的平均）小于0.3停止迭代（运行时间可能特别慢）
python代码如下：

alpha = 0.0005#如果学习率太大会造成梯度上升，得出NAN数值，详见后期专门分析学习率
iters = 15000

while True:
    g, cost = gradientDescent(X, y, theta, alpha, iters)
    if cost[-1] <0.3:

        print(g,cost)
        break
    else:
        print(cost)
        iters =iters+15000

迭代结果输出如下：
在这里插入图片描述
5、画出决策线
python代码如下：

print(result[0])
print(Cost( result[0],X, y))

plotting_x1 = np.linspace(30, 100, 100)
plotting_h1 = ( - result[0][0] - result[0][1] * plotting_x1) / result[0][2]

fig, ax = plt.subplots(figsize=(12,8))
ax.plot(plotting_x1, plotting_h1, 'y', label='预测 ')


ax.scatter(阳性['体检1'], 阳性['体检2'], s=50, c='r', marker='o', label='患病')
ax.scatter(阴性['体检1'], 阴性['体检2'], s=50, c='g', marker='s', label='不患病')


ax.legend()
ax.set_xlabel('体检 1 数据')
ax.set_ylabel('体检 2 数据')
plt.show()

运行结果：
①、梯度下降配合循环逻辑，得出的Ѳ画出的图：
在这里插入图片描述
②、利用scipy.optimize.fmin_tnc工具库得出的Ѳ画出的图：

6、预测得病率和得不得病的反馈
得病为1，不得病为0
体检1为60，体检2为70
python代码如下：

def hfunc1(theta, X):
    return sigmoid(np.dot(theta.T, X))

def predict(theta, X):
    probability = sigmoid(np.dot(theta.T, X))
    return [1 if probability >= 0.5 else 0]

print('得病率为：',hfunc1(result[0],[1,60,70]))
print('预测得不得病：',predict(result[0],[1,60,70]))

运行结果：
在这里插入图片描述
如有问题欢迎指正，谢谢~

本文地址：https://blog.csdn.net/m0_46718733/article/details/107078436

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python如何合并多个字典或映射

问题现在有多个字典或者映射，你想将它们从逻辑上合并为一个单一的映射后执行某些操作，比如查找值或者检查某些键是否存在。解决方案加入你有如下两个字典:a = {'x... [阅读全文]
Python图像处理二值化方法实例汇总

在用python进行图像处理时，二值化是非常重要的一步，现总结了自己遇到过的6种图像二值化的方法（当然这个绝对不是全部的二值化方法，若发现新的方法会继续新增）... [阅读全文]
浅析Python 多行匹配模式

问题你正在试着使用正则表达式去匹配一大块的文本，而你需要跨越多行去匹配。解决方案这个问题很典型的出现在当你用点(.)去匹配任意字符的时候，忘记了点(.)不能匹配... [阅读全文]
python实现学生管理系统开发

使用python完成超级基础的学生管理系统，供大家参考，具体内容如下说明：1、本学生管理系统非常非常简易，只有增，显，查，删，改功能，对于python新手容易看... [阅读全文]
深入了解NumPy 高级索引

numpy 比一般的 python 序列提供更多的索引方式。除了之前看到的用整数和切片的索引外，数组可以由整数数组索引、布尔索引及花式索引。整数数组索引以下实例... [阅读全文]
Python 解析简单的XML数据

问题你想从一个简单的xml文档中提取数据。解决方案可以使用 xml.etree.elementtree 模块从简单的xml文档中提取数据。为了演示，假设你想解析... [阅读全文]
用python实现学生管理系统

学生管理系统相信大家学各种语言的时候，练习总是会写各种管理系统吧，管理系统主要有对数据的增删查改操作，原理不难，适合作为练手的小程序数据的结构要保存数据就需要数... [阅读全文]
Python按照先后顺序，对列表进行多条件自定义排序

需求：对指定的列表，按照以下顺序排序：①先按照【编号】从小到大进行排序②再按照列表中包含【方案、扩初、施工图、后... [阅读全文]
Python经典入门100题 (21-30题)

Python入门练手，有这100题就够了！ [阅读全文]
python实现LRU算法

LRU算法python实现学习mysql数据库时，了解了一下ib_buffer_pool的存储机制，使用LRU... [阅读全文]

网友评论


验证码：

机器学习（二）简单逻辑回归python算法+代码（实例：体检阳性阴性预测患不患病）

2020年07月05日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论