当前位置: 移动技术网 > IT编程>脚本编程>Python > 2017年数模国赛B题第一小题的思路过程(个人思路)

2017年数模国赛B题第一小题的思路过程(个人思路)

2020年07月28日  | 移动技术网IT编程  | 我要评论

在这里插入图片描述

第一题.简单来讲,就是给了一些数据,让我们拟合回归方程.

这是附件一的数据(任务相关数据)
在这里插入图片描述
这是附件二的数据(会员相关数据,会员即执行任务的人)
在这里插入图片描述
用excel地图将两类数据可视化.

  • 任务数据
  • 颜色为是否完成,高低为任务标价

在这里插入图片描述

  • 会员数据

在这里插入图片描述
先对图分析一下,能注意到这些问题:

  • 任务主要分布在四个城市,东莞深圳广州佛山
  • 东莞完成度很高,深圳完成度很低
  • 会员有挺多离群数据点

我们小组成员总结出的两个附件的一些影响因子:

  • 任务的位置:
    1.任务可能以四个城市为主,离城市越远,价格越贵.
    2.任务可能由于聚集的原因,任务聚集越多,可能就越?其实这个说不定,可能会因为聚集,抢的人多就便宜了,也可能任务太多,人不够,所以价格就贵了.

  • 会员的位置,人越多的地方,可能任务的价格就越低

  • 会员的完成任务能力,将会员里的剩余三组数据定义为会员完成任务的能力.不然影响因素可能就太多了.

然后逐个分析四个影响因素:

  • 任务距离城市中心的距离:还是比较容易想到聚类算法的,得到四类中心,然后由于数据比较集中,可以将这些数据点视作在一个平面上.然后每个点与中心点的欧式聚类一算就搞定了.

在这里插入图片描述

在这里插入图片描述

  • 任务聚集度:这个问题参考了一些优秀论文.两个方法叭,一个是以1.5km画圆,圈住任务个数就是密集度了.不过想起来容易…实施起来很多细节…比如1.5km怎么算…最后我们使用了另外一个方法,单纯划分成5050的格子.从min经度到max经度划分,纬度同理.格子里面有几个任务就是多少密集度.论文可能还要分析一下这个5050的格子实际为多大,是否合理.
    在这里插入图片描述

  • 会员密集度,与任务聚集度同理.不过筛掉那些离得太远的离群点.

在这里插入图片描述

  • 完成能力里面,又有三个因素.综合成一个因素的话.那就使用熵权法一股脑堆在一起叭.三类数据熵权,堆起来,得到一个数据.这里也不太好数据可视化.

四个因素分析完了,得到值了,那就使用多元回归分析进行拟合.得到数据,这里可以用excel也可以用python sklearn.

在这里插入图片描述

这个数据是经过归一化后的系数,也可以不归一化,方便预测.然后R^2为0.28,低的离谱…拟合的真的很差.
在这里插入图片描述
可以看到价钱贵的都没拟合到.那怎么办呢?翻了翻优秀论文,再添加一个因素,任务的难易度.这个在附件里面没有体现…但大胆假设,为啥会有这么大误差,因为还有一个影响因子,任务的难易程度.这之间的差值,就是任务的难易程度的划分.那怎么划分难度呢?对残差聚类分析…得到四个中心点,就是四个等级.

在这里插入图片描述
在这里插入图片描述

(上面的文字和数据不对应,要排序一下)

最后拟合的结果,那肯定是相当好,这么一顿操作下来,我觉得我就是硬拟合…醉了,加上了难度系数的拟合就必不可能拟合的不好了…
在这里插入图片描述
(说点题外话,写到这我在翻代码时,发现我用于残差计算的预测值,不是四影响因子的预测值,是原先三个影响因子的预测值.心态有点蹦,好多图要重做了)

最后,对自己的做法评论一下…就离谱,拟合就硬拟,系数啥的离谱的要死.有种过拟合的意思.有个地方可以稍稍改正一下,就是等级里面会有负的,级低等级扣钱的现象出现,其实可以将前面多元回归方程的数字借一下,借给等级,这样子拟合出来的方程好看一些(因为原数据的最低价格就是65,拟合出来的常数偏大,正好借给难度,可以让难度表现为,难度越难就需要加钱,简单的不加钱,或只加一点钱.然后难度可以四舍五入一下…小数点太多有点硬拟合的感觉)

  • 关于第二题的看法.虽然已经用光了所有的数据,但是其实还是又改进的地方,那就是,东莞和深圳的完成情况.深圳完成的比较好,东莞完成的比较差.为什么呢?优秀论文提到的,两地GDP不同,深圳有钱,不差这点钱懒得做.东莞学生和家庭主妇多一些,喜欢赚这种钱,而且gdp相对落后…这样加入gdp,进一步完成模型.不过这样第一问的第二小问解释的空间就比较小了,也可以匀几个因素过去第二题…
  • 感受,优秀论文成为优秀论文,我觉得并不是因为整篇都很优秀,而是在某个点上很有亮点同时,整体比较自洽.但是…看论文的时候不能全信,因为比赛时时间太紧,不可能每个方面都很完美,有的地方实在解释不通,很有可能就是糊弄过去的…所以读优秀论文时多思考一下,不要被优秀论文牵着鼻子走

我也是数模新生小白,以上就是对2017年国赛B题第一问的一些思路…如果有谬误或者更好的思路,欢迎指正,感激不尽!

本文地址:https://blog.csdn.net/rglkt/article/details/107601503

如对本文有疑问, 点击进行留言回复!!

相关文章:

验证码:
移动技术网