当前位置：移动技术网 > IT编程>脚本编程>Python > 2017年数模国赛B题第一小题的思路过程(个人思路)

2017年数模国赛B题第一小题的思路过程(个人思路)

2020年07月28日 | 移动技术网IT编程 | 我要评论

在这里插入图片描述

第一题.简单来讲,就是给了一些数据,让我们拟合回归方程.

这是附件一的数据(任务相关数据)
在这里插入图片描述
这是附件二的数据(会员相关数据,会员即执行任务的人)

用excel地图将两类数据可视化.

任务数据
颜色为是否完成,高低为任务标价

在这里插入图片描述

会员数据

在这里插入图片描述
先对图分析一下,能注意到这些问题:

任务主要分布在四个城市,东莞深圳广州佛山
东莞完成度很高,深圳完成度很低
会员有挺多离群数据点

我们小组成员总结出的两个附件的一些影响因子:

任务的位置:
1.任务可能以四个城市为主,离城市越远,价格越贵.
2.任务可能由于聚集的原因,任务聚集越多,可能就越?其实这个说不定,可能会因为聚集,抢的人多就便宜了,也可能任务太多,人不够,所以价格就贵了.
会员的位置,人越多的地方,可能任务的价格就越低
会员的完成任务能力,将会员里的剩余三组数据定义为会员完成任务的能力.不然影响因素可能就太多了.

然后逐个分析四个影响因素:

任务距离城市中心的距离:还是比较容易想到聚类算法的,得到四类中心,然后由于数据比较集中,可以将这些数据点视作在一个平面上.然后每个点与中心点的欧式聚类一算就搞定了.

在这里插入图片描述

任务聚集度:这个问题参考了一些优秀论文.两个方法叭,一个是以1.5km画圆,圈住任务个数就是密集度了.不过想起来容易…实施起来很多细节…比如1.5km怎么算…最后我们使用了另外一个方法,单纯划分成5050的格子.从min经度到max经度划分,纬度同理.格子里面有几个任务就是多少密集度.论文可能还要分析一下这个5050的格子实际为多大,是否合理.
会员密集度,与任务聚集度同理.不过筛掉那些离得太远的离群点.

在这里插入图片描述

完成能力里面,又有三个因素.综合成一个因素的话.那就使用熵权法一股脑堆在一起叭.三类数据熵权,堆起来,得到一个数据.这里也不太好数据可视化.

四个因素分析完了,得到值了,那就使用多元回归分析进行拟合.得到数据,这里可以用excel也可以用python sklearn.

在这里插入图片描述

这个数据是经过归一化后的系数,也可以不归一化,方便预测.然后R^2为0.28,低的离谱…拟合的真的很差.
在这里插入图片描述
可以看到价钱贵的都没拟合到.那怎么办呢?翻了翻优秀论文,再添加一个因素,任务的难易度.这个在附件里面没有体现…但大胆假设,为啥会有这么大误差,因为还有一个影响因子,任务的难易程度.这之间的差值,就是任务的难易程度的划分.那怎么划分难度呢?对残差聚类分析…得到四个中心点,就是四个等级.

在这里插入图片描述

(上面的文字和数据不对应,要排序一下)

最后拟合的结果,那肯定是相当好,这么一顿操作下来,我觉得我就是硬拟合…醉了,加上了难度系数的拟合就必不可能拟合的不好了…
在这里插入图片描述
(说点题外话,写到这我在翻代码时,发现我用于残差计算的预测值,不是四影响因子的预测值,是原先三个影响因子的预测值.心态有点蹦,好多图要重做了)

最后,对自己的做法评论一下…就离谱,拟合就硬拟,系数啥的离谱的要死.有种过拟合的意思.有个地方可以稍稍改正一下,就是等级里面会有负的,级低等级扣钱的现象出现,其实可以将前面多元回归方程的数字借一下,借给等级,这样子拟合出来的方程好看一些(因为原数据的最低价格就是65,拟合出来的常数偏大,正好借给难度,可以让难度表现为,难度越难就需要加钱,简单的不加钱,或只加一点钱.然后难度可以四舍五入一下…小数点太多有点硬拟合的感觉)

关于第二题的看法.虽然已经用光了所有的数据,但是其实还是又改进的地方,那就是,东莞和深圳的完成情况.深圳完成的比较好,东莞完成的比较差.为什么呢?优秀论文提到的,两地GDP不同,深圳有钱,不差这点钱懒得做.东莞学生和家庭主妇多一些,喜欢赚这种钱,而且gdp相对落后…这样加入gdp,进一步完成模型.不过这样第一问的第二小问解释的空间就比较小了,也可以匀几个因素过去第二题…
感受,优秀论文成为优秀论文,我觉得并不是因为整篇都很优秀,而是在某个点上很有亮点同时,整体比较自洽.但是…看论文的时候不能全信,因为比赛时时间太紧,不可能每个方面都很完美,有的地方实在解释不通,很有可能就是糊弄过去的…所以读优秀论文时多思考一下,不要被优秀论文牵着鼻子走

我也是数模新生小白,以上就是对2017年国赛B题第一问的一些思路…如果有谬误或者更好的思路,欢迎指正,感激不尽!

本文地址：https://blog.csdn.net/rglkt/article/details/107601503

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

序列化Python对象的方法

问题你需要将一个python对象序列化为一个字节流，以便将它保存到一个文件、存储到数据库或者通过网络传输它。解决方案对于序列化最普遍的做法就是使用 pickle... [阅读全文]
Python实现弹球小游戏

本文主要给大家分享一个实战项目，通过python代码写一款我们儿时大多数人玩过的游戏---小弹球游戏。只不过当时，我们是在游戏机上玩，现在我们通过运行代码来玩，... [阅读全文]
Python Flask异步发送邮件实现方法解析

第一步，修改工厂函数，配置邮件参数from flask import flaskfrom config import configfrom flask_sqla... [阅读全文]
Python sqlalchemy时间戳及密码管理实现代码详解

一、时间戳实际开发中，我们一般希望create_time和update_time这两个属性能自动设置，所以在建表的时候需要在model上特殊处理一下：from ... [阅读全文]
python中的django是做什么的

django是什么？django是一个基于python的web应用框架。它与python的另外一个web 框架 flask最大的区别是，它奉行 “包含一切” 的... [阅读全文]
Python过滤序列元素的方法

问题你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列解决方案最简单的过滤序列元素的方法就是使用列表推导。比如：>>> myli... [阅读全文]
python中selenium库的基本使用详解

什么是seleniumselenium 是一个用于web应用程序测试的工具。selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括i... [阅读全文]
Python在字符串中处理html和xml的方法

问题你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, ... [阅读全文]
Python如何将字符串转换为日期

问题你的应用程序接受字符串格式的输入，但是你想将它们转换为 datetime 对象以便在上面执行非字符串操作。解决方案使用python的标准模块 datetim... [阅读全文]
Python使用shutil模块实现文件拷贝

主要作用与拷贝文件用的。1.shutil.copyfileobj(文件1，文件2)：将文件1的数据覆盖copy给文件2。import shutilf1 = op... [阅读全文]

网友评论


验证码：

2017年数模国赛B题第一小题的思路过程(个人思路)

2020年07月28日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论