用户工具

站点工具


ml:sample:2020-01-ncp-0222

这是本文档旧的修订版!


2020新型冠数据拟合预测-20200222

免责声明

本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担!

逻辑回归概述

逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为:

y=1/(1+e^x)

其数学曲线为:

因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势!

基础数据准备

根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下:

日期 x(公布日期-20200120) y(确诊数量)
20200120 - 291
20200121 - 440
20200122 - 571
20200123 - 830
20200124 - 1287
20200125 - 1975
20200126 - 2744
20200127 0 4515
20200128 1 5974
20200129 2 7711
20200130 3 9692
20200131 4 11791
20200201 5 14380
20200202 6 17205
20200203 7 20438
20200204 8 24324
20200205 9 28018
20200206 10 31161
20200207 11 34546
20200208 12 37198
20200209 13 40235
20200210 14 42708
20200211 15 44730
20200212 16 59882
20200213 17 63932
20200214 18 66576
20200215 19 68584
20200216 20 70635
20200217 21 72528
20200218 22 74297
20200219 23 75101
20200220 24 75993
20200221 25 75392

逻辑回归公式变换

传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下:

y=k/(1+e^(a+bx))

该公式增加三个参数:

  • k:用于控制最大的感染人数
  • a:用于控制曲线的左右移动
  • b:用于控制曲线的斜率

K(最大确诊量)值求解

1. 公式变换

根据上述公式可知:

k/y=1+e^(a+bx)

故此:

ln(k/y-1)=a+bx

2. 求解k

将数据表中的三个等距离的点(【0, 4515】,【13, 40235】,【25, 75392】)分别代入上述公式可得:

  • ln(k/4515-1)=a
  • ln(k/40235-1)=a+b*13
  • ln(k/75392-1)=a+b*25

跟着上述三个公式可以求得:

k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515* 75392-40235*(4515+ 75392))/(4515* 75392-40235* 40235)=81711

意思根据现有的发展趋势,未来确诊真人数可能会在81711左右

预测后续数量发展趋势

通过拟合求解a,b

根据K值,可以计算得到y'=ln(k/y-1),结果如下:

日期 x y y'
20200127  4515 2.83894245534791
20200128  5974 2.53985009270593
20200129  7711 2.26141721235335
20200130  9692 2.00562917013812
20200131  11791 1.78001520275274
20200201  14380 1.5437824023744
20200202  17205 1.3215582034817
20200203  20438 1.09794337595259
20200204  24324 0.858354279580763
20200205  28018 0.650435478426595
20200206  10  31161 0.483795632552697
20200207  11  34546 0.311360322830724
20200208  12  37198 0.179526284947649
20200209  13  40235 0.0303776830979355
20200210  14  42708 -0.0907476900679146
20200211  15  44730 -0.190240150207265
20200212  16  59882 -1.00913659813503
20200213  17  63932 -1.27980203297197
20200214  18  66576 -1.4813342097669
20200215  19  68584 -1.65338809355518
20200216  20  70635 -1.85274516705491
20200217  21  72528 -2.06661874556711
20200218  22  74297 -2.3047004693294
20200219  23  75101 -2.43025022039707
20200220  24  75993 -2.5870221368811
20200221  25  75392 -2.47914020079775

通过 y'=a+bx进行拟合,求得:

  • a=2.720356493401576
  • b=-0.22231048384577703

预测未来的发展趋势

根据 y=k/(1+e^(a+bx))可以求得未来的确诊量变化趋势如下:

日期 x y 预计增量 实际增量 增量偏差
20200222 26 78050 861 649 -212
20200223 27 78753 703 416 -287
20200224 28 79326 573 517 -56
20200225 29 79790 464 411 -53
20200226 30 80166 376 440 64
20200227 31 80469 303 329 26
20200228 32 80714 245 430 185
20200329 33 80910 196 579 383
20200301 34 81069 159 206 47
20200302 35 81196 127 128 1
20200303 36 81298 102 120 18
20200304 37 81380 82 143 61
20200305 38 81446 66 145 79
20200306 39 81498 52 103 51
20200307 40 81541 43 46 3
20200308 41 81575 34 45 11
20200309 42 81602 27 20 -7
20200310 43 81623 21 31 10
20200311 44 81641 18 25 7
20200312 45 81655 14 11 -3
20200313 46 81666 11 18 7
20200314 47 81675 9
20200315 48 81682 7
20200316 49 81688 6

结论

  • 预计最终确诊数量约为81711
  • 预计3月5号左右确诊数量将逐步降低到100以下
  • 预计3月15号左右确诊数量将下降到10个以内,疫情防疫工作将基本结束
ml/sample/2020-01-ncp-0222.1584174079.txt.gz · 最后更改: 2020/07/12 12:07 (外部编辑)