当前位置：移动技术网 > IT编程>脚本编程>Python > 为了能早点买房，我用 Python 预测房价走势！

为了能早点买房，我用 Python 预测房价走势！

2019年12月04日 | 移动技术网IT编程 | 我要评论

电影在线看,淘宝小号安全查询,sw 047

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者： python高校

ps：如有需要python学习资料的小伙伴可以加点击下方链接自行获取

项目描述

利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试；

项目分析

数据集字段解释：

rm: 住宅平均房间数量；
lstat: 区域中被认为是低收入阶层的比率；
ptratio: 镇上学生与教师数量比例；
medv: 房屋的中值价格（目标特征，即我们要预测的值）；

其实现在回过头来看，前三个特征应该都是挖掘后的组合特征，比如rm，通常在原始数据中会分为多个特征：一楼房间、二楼房间、厨房、卧室个数、地下室房间等等，这里应该是为了教学简单化了；

medv为我们要预测的值，属于回归问题，另外数据集不大（不到500个数据点），小数据集上的回归问题，现在的我初步考虑会用svm，稍后让我们看看当时的选择；

step 1 导入数据

注意点：

1、如果数据在多个csv中（比如很多销售项目中，销售数据和店铺数据是分开两个csv的，类似数据库的两张表），这里一般要连接起来； 2、训练数据和测试数据连接起来，这是为了后续的数据处理的一致，否则训练模型时会有问题（比如用训练数据训练的模型，预测测试数据时报错维度不一致）； 3、观察下数据量，数据量对于后续选择算法、可视化方法等有比较大的影响，所以一般会看一下； 4、pandas内存优化，这一点项目中目前没有，但是我最近的项目有用到，简单说一下，通过对特征字段的数据类型向下转换（比如int64转为int8）降低对内存的使用，这里很重要，数据量大时很容易撑爆个人电脑的内存存储；

上代码：

1 # 载入波士顿房屋的数据集
2 data = pd.read_csv('housing.csv')
3 prices = data['medv']
4 features = data.drop('medv', axis = 1)
5 # 完成
6 
7 print"boston housing dataset has {} data points with {} variables each.".format(*data.shape)

tep 2 分析数据

加载数据后，不要直接就急匆匆的上各种处理手段，加各种模型，先慢一点，对数据进行一个初步的了解，了解其各个特征的统计值、分布情况、与目标特征的关系，最好进行可视化，这样会看到很多意料之外的东西；

基础统计运算

统计运算用于了解某个特征的整体取值情况，它的最大最小值，平均值中位数，百分位数等等，这些都是最简单的对一个字段进行了解的手段；

上代码：

在这里插入图片描述

特征观察

这里主要考虑各个特征与目标之间的关系，比如是正相关还是负相关，通常都是通过对业务的了解而来的，这里就延伸出一个点，机器学习项目通常来说，对业务越了解，越容易得到好的效果，因为所谓的特征工程其实就是理解业务、深挖业务的过程；

比如这个问题中的三个特征：

rm：房间个数明显应该是与房价正相关的；
lstat：低收入比例一定程度上表示着这个社区的级别，因此应该是负相关；
ptratio：学生/教师比例越高，说明教育资源越紧缺，也应该是负相关；

上述这三个点，同样可以通过可视化的方式来验证，事实上也应该去验证而不是只靠主观猜想，有些情况下，主观感觉与客观事实是完全相反的，这里要注意；

step 3 数据划分

为了验证模型的好坏，通常的做法是进行cv，即交叉验证，基本思路是将数据平均划分n块，取其中n-1块训练，并对另外1块做预测，并比对预测结果与实际结果，这个过程反复n次直到每一块都作为验证数据使用过；

上代码：

1 # 提示：导入train_test_split
2 from sklearn.model_selection import train_test_split
3 x_train, x_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=random_state)
4 print x_train.shape
5 print x_test.shape
6 print y_train.shape
7 print y_test.shape

step 4 定义评价函数

这里主要是根据问题来定义，比如分类问题用的最多的是准确率（精确率、召回率也有使用，具体看业务场景中更重视什么），回归问题用rmse（均方误差）等等，实际项目中根据业务特点经常会有需要去自定义评价函数的时候，这里就比较灵活；

step 5 模型调优

通过gridsearch对模型参数进行网格组合搜索最优，注意这里要考虑数据量以及组合后的可能个数，避免运行时间过长哈。

上代码：

 1 from sklearn.model_selection importkfold,gridsearchcv
 2 from sklearn.tree importdecisiontreeregressor
 3 from sklearn.metrics import make_scorer
 4 
 5 def fit_model(x, y):
 6 """ 基于输入数据 [x,y]，利于网格搜索找到最优的决策树模型"""
 7     cross_validator = kfold()
 8     regressor = decisiontreeregressor()
 9     params = {'max_depth':[1,2,3,4,5,6,7,8,9,10]}
10     scoring_fnc = make_scorer(performance_metric)
11 
12     grid = gridsearchcv(estimator=regressor, param_grid=params, scoring=scoring_fnc,cv=cross_validator)
13 
14 # 基于输入数据 [x,y]，进行网格搜索
15     grid = grid.fit(x, y)
16 # 返回网格搜索后的最优模型
17 return grid.best_estimator_

可以看到当时项目中选择的是决策树模型，现在看，树模型在这种小数据集上其实是比较容易过拟合的，因此可以考虑用svm代替，你也可以试试哈，我估计是svm效果最好；

学习曲线

通过绘制分析学习曲线，可以对模型当前状态有一个基本了解，如下图：

可以看到，超参数max_depth为1和3时，明显训练分数过低，这说明此时模型有欠拟合的情况，而当max_depth为6和10时，明显训练分数和验证分析差距过大，说明出现了过拟合，因此我们初步可以猜测，最佳参数在3和6之间，即4,5中的一个，其他参数一样可以通过学习曲线来进行可视化分析，判断是欠拟合还是过拟合，再分别进行针对处理；

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：

为了能早点买房，我用 Python 预测房价走势！

2019年12月04日 | 移动技术网IT编程 | 我要评论

前言

项目描述

项目分析

step 1 导入数据

step 3 数据划分

step 4 定义评价函数

step 5 模型调优

您可能感兴趣的文章:

相关文章:

网友评论