第一题.简单来讲,就是给了一些数据,让我们拟合回归方程.
这是附件一的数据(任务相关数据)
这是附件二的数据(会员相关数据,会员即执行任务的人)
用excel地图将两类数据可视化.
先对图分析一下,能注意到这些问题:
我们小组成员总结出的两个附件的一些影响因子:
任务的位置:
1.任务可能以四个城市为主,离城市越远,价格越贵.
2.任务可能由于聚集的原因,任务聚集越多,可能就越?其实这个说不定,可能会因为聚集,抢的人多就便宜了,也可能任务太多,人不够,所以价格就贵了.
会员的位置,人越多的地方,可能任务的价格就越低
会员的完成任务能力,将会员里的剩余三组数据定义为会员完成任务的能力.不然影响因素可能就太多了.
然后逐个分析四个影响因素:
任务聚集度:这个问题参考了一些优秀论文.两个方法叭,一个是以1.5km画圆,圈住任务个数就是密集度了.不过想起来容易…实施起来很多细节…比如1.5km怎么算…最后我们使用了另外一个方法,单纯划分成5050的格子.从min经度到max经度划分,纬度同理.格子里面有几个任务就是多少密集度.论文可能还要分析一下这个5050的格子实际为多大,是否合理.
会员密集度,与任务聚集度同理.不过筛掉那些离得太远的离群点.
四个因素分析完了,得到值了,那就使用多元回归分析进行拟合.得到数据,这里可以用excel也可以用python sklearn.
这个数据是经过归一化后的系数,也可以不归一化,方便预测.然后R^2为0.28,低的离谱…拟合的真的很差.
可以看到价钱贵的都没拟合到.那怎么办呢?翻了翻优秀论文,再添加一个因素,任务的难易度.这个在附件里面没有体现…但大胆假设,为啥会有这么大误差,因为还有一个影响因子,任务的难易程度.这之间的差值,就是任务的难易程度的划分.那怎么划分难度呢?对残差聚类分析…得到四个中心点,就是四个等级.
(上面的文字和数据不对应,要排序一下)
最后拟合的结果,那肯定是相当好,这么一顿操作下来,我觉得我就是硬拟合…醉了,加上了难度系数的拟合就必不可能拟合的不好了…
(说点题外话,写到这我在翻代码时,发现我用于残差计算的预测值,不是四影响因子的预测值,是原先三个影响因子的预测值.心态有点蹦,好多图要重做了)
最后,对自己的做法评论一下…就离谱,拟合就硬拟,系数啥的离谱的要死.有种过拟合的意思.有个地方可以稍稍改正一下,就是等级里面会有负的,级低等级扣钱的现象出现,其实可以将前面多元回归方程的数字借一下,借给等级,这样子拟合出来的方程好看一些(因为原数据的最低价格就是65,拟合出来的常数偏大,正好借给难度,可以让难度表现为,难度越难就需要加钱,简单的不加钱,或只加一点钱.然后难度可以四舍五入一下…小数点太多有点硬拟合的感觉)
我也是数模新生小白,以上就是对2017年国赛B题第一问的一些思路…如果有谬误或者更好的思路,欢迎指正,感激不尽!
本文地址:https://blog.csdn.net/rglkt/article/details/107601503
如对本文有疑问, 点击进行留言回复!!
Python sqlalchemy时间戳及密码管理实现代码详解
网友评论