====== 2020新型冠数据拟合预测-20200222 ====== ===== 免责声明 ===== 本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担! ===== 逻辑回归概述 ===== 逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为: y=1/(1+e^x) {{ :sample:logistic_regression_emulator.jpg?100 |}} 其数学曲线为: {{ :sample:logistic_regression_chart.jpg?400 |}} 因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势! ===== 基础数据准备 ===== 根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下: ^ 日期 ^ x(公布日期-20200120) ^ y(确诊数量) ^ | 20200120 | - | 291 | | 20200121 | - | 440 | | 20200122 | - | 571 | | 20200123 | - | 830 | | 20200124 | - | 1287 | | 20200125 | - | 1975 | | 20200126 | - | 2744 | | 20200127 | 0 | 4515 | | 20200128 | 1 | 5974 | | 20200129 | 2 | 7711 | | 20200130 | 3 | 9692 | | 20200131 | 4 | 11791 | | 20200201 | 5 | 14380 | | 20200202 | 6 | 17205 | | 20200203 | 7 | 20438 | | 20200204 | 8 | 24324 | | 20200205 | 9 | 28018 | | 20200206 | 10 | 31161 | | 20200207 | 11 | 34546 | | 20200208 | 12 | 37198 | | 20200209 | 13 | 40235 | | 20200210 | 14 | 42708 | | 20200211 | 15 | 44730 | | 20200212 | 16 | 59882 | | 20200213 | 17 | 63932 | | 20200214 | 18 | 66576 | | 20200215 | 19 | 68584 | | 20200216 | 20 | 70635 | | 20200217 | 21 | 72528 | | 20200218 | 22 | 74297 | | 20200219 | 23 | 75101 | | 20200220 | 24 | 75993 | | 20200221 | 25 | 75392 | > 数据来源:[[https://news.qq.com//zt2020/page/feiyan.htm]] ===== 逻辑回归公式变换 ===== 传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下: y=k/(1+e^(a+bx)) {{ :sample:logistic_regression_emulation_2.jpg?100 |}} 该公式增加三个参数: * k:用于控制最大的感染人数 * a:用于控制曲线的左右移动 * b:用于控制曲线的斜率 ===== K(最大确诊量)值求解 ===== ==== 1. 公式变换 ==== 根据上述公式可知: k/y=1+e^(a+bx) 故此: ln(k/y-1)=a+bx ==== 2. 求解k ==== 将数据表中的三个等距离的点(【0, 4515】,【13, 40235】,【25, 75392】)分别代入上述公式可得: * ln(k/4515-1)=a * ln(k/40235-1)=a+b*13 * ln(k/75392-1)=a+b*25 跟着上述三个公式可以求得: k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515* 75392-40235*(4515+ 75392))/(4515* 75392-40235* 40235)=81711 意思根据现有的发展趋势,未来确诊真人数可能会在81711左右 ===== 预测后续数量发展趋势 ===== ==== 通过拟合求解a,b ==== 根据K值,可以计算得到y'=ln(k/y-1),结果如下: ^ 日期 ^ x ^ y ^ y' ^ | 20200127  | 0  | 4515 | 2.83894245534791 | | 20200128  | 1  | 5974 | 2.53985009270593 | | 20200129  | 2  | 7711 | 2.26141721235335 | | 20200130  | 3  | 9692 | 2.00562917013812 | | 20200131  | 4  | 11791 | 1.78001520275274 | | 20200201  | 5  | 14380 | 1.5437824023744 | | 20200202  | 6  | 17205 | 1.3215582034817 | | 20200203  | 7  | 20438 | 1.09794337595259 | | 20200204  | 8  | 24324 | 0.858354279580763 | | 20200205  | 9  | 28018 | 0.650435478426595 | | 20200206  | 10  | 31161 | 0.483795632552697 | | 20200207  | 11  | 34546 | 0.311360322830724 | | 20200208  | 12  | 37198 | 0.179526284947649 | | 20200209  | 13  | 40235 | 0.0303776830979355 | | 20200210  | 14  | 42708 | -0.0907476900679146 | | 20200211  | 15  | 44730 | -0.190240150207265 | | 20200212  | 16  | 59882 | -1.00913659813503 | | 20200213  | 17  | 63932 | -1.27980203297197 | | 20200214  | 18  | 66576 | -1.4813342097669 | | 20200215  | 19  | 68584 | -1.65338809355518 | | 20200216  | 20  | 70635 | -1.85274516705491 | | 20200217  | 21  | 72528 | -2.06661874556711 | | 20200218  | 22  | 74297 | -2.3047004693294 | | 20200219  | 23  | 75101 | -2.43025022039707 | | 20200220  | 24  | 75993 | -2.5870221368811 | | 20200221  | 25  | 75392 | -2.47914020079775 | 通过 y'=a+bx进行拟合,求得: * a=2.720356493401576 * b=-0.22231048384577703 ==== 预测未来的发展趋势 ==== 根据 y=k/(1+e^(a+bx))可以求得未来的确诊量变化趋势如下: ^ 日期 ^ x ^ y ^ 预计增量 ^ 实际增量 ^ 增量偏差 ^ | 20200222 | 26 | 78050 | 861 | 649 | -212 | | 20200223 | 27 | 78753 | 703 | 416 | -287 | | 20200224 | 28 | 79326 | 573 | 517 | -56 | | 20200225 | 29 | 79790 | 464 | 411 | -53 | | 20200226 | 30 | 80166 | 376 | 440 | 64 | | 20200227 | 31 | 80469 | 303 | 329 | 26 | | 20200228 | 32 | 80714 | 245 | 430 | 185 | | 20200329 | 33 | 80910 | 196 | 579 | 383 | | 20200301 | 34 | 81069 | 159 | 206 | 47 | | 20200302 | 35 | 81196 | 127 | 128 | 1 | | 20200303 | 36 | 81298 | 102 | 120 | 18 | | 20200304 | 37 | 81380 | 82 | 143 | 61 | | 20200305 | 38 | 81446 | 66 | 145 | 79 | | 20200306 | 39 | 81498 | 52 | 103 | 51 | | 20200307 | 40 | 81541 | 43 | 46 | 3 | | 20200308 | 41 | 81575 | 34 | 45 | 11 | | 20200309 | 42 | 81602 | 27 | 20 | -7 | | 20200310 | 43 | 81623 | 21 | 31 | 10 | | 20200311 | 44 | 81641 | 18 | 25 | 7 | | 20200312 | 45 | 81655 | 14 | 11 | -3 | | 20200313 | 46 | 81666 | 11 | 18 | 7 | | 20200314 | 47 | 81675 | 9 | | | | 20200315 | 48 | 81682 | 7 | | | | 20200316 | 49 | 81688 | 6 | | | ===== 结论 ===== * 预计最终确诊数量约为81711 * 预计3月5号左右确诊数量将逐步降低到100以下 * 预计3月15号左右确诊数量将下降到10个以内,疫情防疫工作将基本结束