这是本文档旧的修订版!
本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担!
逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为:
y=1/(1+e^x)
其数学曲线为:
因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势!
根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下:
日期 | x(公布日期-20200120) | y(确诊数量) |
---|---|---|
20200120 | - | 291 |
20200121 | - | 440 |
20200122 | - | 571 |
20200123 | - | 830 |
20200124 | - | 1287 |
20200125 | - | 1975 |
20200126 | - | 2744 |
20200127 | 0 | 4515 |
20200128 | 1 | 5974 |
20200129 | 2 | 7711 |
20200130 | 3 | 9692 |
20200131 | 4 | 11791 |
20200201 | 5 | 14380 |
20200202 | 6 | 17205 |
20200203 | 7 | 20438 |
20200204 | 8 | 24324 |
20200205 | 9 | 28018 |
20200206 | 10 | 31161 |
20200207 | 11 | 34546 |
20200208 | 12 | 37198 |
20200209 | 13 | 40235 |
20200210 | 14 | 42708 |
20200211 | 15 | 44730 |
20200212 | 16 | 59882 |
20200213 | 17 | 63932 |
20200214 | 18 | 66576 |
20200215 | 19 | 68584 |
20200216 | 20 | 70635 |
20200217 | 21 | 72528 |
20200218 | 22 | 74297 |
20200219 | 23 | 75101 |
20200220 | 24 | 75993 |
20200221 | 25 | 75392 |
传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下:
y=k/(1+e^(a+bx))
该公式增加三个参数:
根据上述公式可知:
k/y=1+e^(a+bx)
故此:
ln(k/y-1)=a+bx
将数据表中的三个等距离的点(【0, 4515】,【13, 40235】,【25, 75392】)分别代入上述公式可得:
跟着上述三个公式可以求得:
k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515* 75392-40235*(4515+ 75392))/(4515* 75392-40235* 40235)=81711
意思根据现有的发展趋势,未来确诊真人数可能会在81711左右
根据K值,可以计算得到y'=ln(k/y-1),结果如下:
日期 | x | y | y' |
---|---|---|---|
20200127 | 0 | 4515 | 2.83894245534791 |
20200128 | 1 | 5974 | 2.53985009270593 |
20200129 | 2 | 7711 | 2.26141721235335 |
20200130 | 3 | 9692 | 2.00562917013812 |
20200131 | 4 | 11791 | 1.78001520275274 |
20200201 | 5 | 14380 | 1.5437824023744 |
20200202 | 6 | 17205 | 1.3215582034817 |
20200203 | 7 | 20438 | 1.09794337595259 |
20200204 | 8 | 24324 | 0.858354279580763 |
20200205 | 9 | 28018 | 0.650435478426595 |
20200206 | 10 | 31161 | 0.483795632552697 |
20200207 | 11 | 34546 | 0.311360322830724 |
20200208 | 12 | 37198 | 0.179526284947649 |
20200209 | 13 | 40235 | 0.0303776830979355 |
20200210 | 14 | 42708 | -0.0907476900679146 |
20200211 | 15 | 44730 | -0.190240150207265 |
20200212 | 16 | 59882 | -1.00913659813503 |
20200213 | 17 | 63932 | -1.27980203297197 |
20200214 | 18 | 66576 | -1.4813342097669 |
20200215 | 19 | 68584 | -1.65338809355518 |
20200216 | 20 | 70635 | -1.85274516705491 |
20200217 | 21 | 72528 | -2.06661874556711 |
20200218 | 22 | 74297 | -2.3047004693294 |
20200219 | 23 | 75101 | -2.43025022039707 |
20200220 | 24 | 75993 | -2.5870221368811 |
20200221 | 25 | 75392 | -2.47914020079775 |
通过 y'=a+bx进行拟合,求得:
根据 y=k/(1+e^(a+bx))可以求得未来的确诊量变化趋势如下:
日期 | x | y | 预计增量 | 实际增量 | 增量偏差 | |
---|---|---|---|---|---|---|
20200221 | 25 | 77189 | 1049 | |||
20200222 | 26 | 78050 | 861 | |||
20200223 | 27 | 78753 | 703 | |||
20200224 | 28 | 79326 | 573 | |||
20200225 | 29 | 79790 | 464 | |||
20200226 | 30 | 80166 | 376 | |||
20200227 | 31 | 80469 | 303 | |||
20200228 | 32 | 80714 | 245 | |||
20200301 | 33 | 80910 | 196 | |||
20200302 | 34 | 81069 | 159 | |||
20200303 | 35 | 81196 | 127 | |||
20200304 | 36 | 81298 | 102 | |||
20200305 | 37 | 81380 | 82 | |||
20200306 | 38 | 81446 | 66 | |||
20200307 | 39 | 81498 | 52 | |||
20200308 | 40 | 81541 | 43 | |||
20200309 | 41 | 81575 | 34 | |||
20200310 | 42 | 81602 | 27 | |||
20200311 | 43 | 81623 | 21 | |||
20200312 | 44 | 81641 | 18 | |||
20200313 | 45 | 81655 | 14 | |||
20200314 | 46 | 81666 | 11 | |||
20200315 | 47 | 81675 | 9 | |||
20200316 | 48 | 81682 | 7 | |||
20200317 | 49 | 81688 | 6 |