用户工具

站点工具


ml:sample:2020-01-ncp-0222

这是本文档旧的修订版!


2020新型冠数据拟合预测-20200222

免责声明

本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担!

逻辑回归概述

逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为:

y=1/(1+e^x)

其数学曲线为:

因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势!

基础数据准备

根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下:

日期 x(公布日期-20200120) y(确诊数量)
20200120 - 291
20200121 - 440
20200122 - 571
20200123 - 830
20200124 - 1287
20200125 - 1975
20200126 - 2744
20200127 0 4515
20200128 1 5974
20200129 2 7711
20200130 3 9692
20200131 4 11791
20200201 5 14380
20200202 6 17205
20200203 7 20438
20200204 8 24324
20200205 9 28018
20200206 10 31161
20200207 11 34546
20200208 12 37198
20200209 13 40235
20200210 14 42708
20200211 15 44730
20200212 16 59882
20200213 17 63932
20200214 18 66576
20200215 19 68584
20200216 20 70635
20200217 21 72528
20200218 22 74297
20200219 23 75101
20200220 24 75993
20200221 25 75392

逻辑回归公式变换

传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下:

y=k/(1+e^(a+bx))

该公式增加三个参数:

  • k:用于控制最大的感染人数
  • a:用于控制曲线的左右移动
  • b:用于控制曲线的斜率

K(最大确诊量)值求解

1. 公式变换

根据上述公式可知:

k/y=1+e^(a+bx)

故此:

ln(k/y-1)=a+bx

2. 求解k

将数据表中的三个等距离的点(【0, 4515】,【13, 40235】,【25, 75392】)分别代入上述公式可得:

  • ln(k/4515-1)=a
  • ln(k/40235-1)=a+b*13
  • ln(k/75392-1)=a+b*25

跟着上述三个公式可以求得:

k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515* 75392-40235*(4515+ 75392))/(4515* 75392-40235* 40235)=81711

意思根据现有的发展趋势,未来确诊真人数可能会在81711左右

预测后续数量发展趋势

通过拟合求解a,b

根据K值,可以计算得到y'=ln(k/y-1),结果如下:

x y'
0 2.838947
1 2.539855
2 2.261422
3 2.005634
4 1.780020
5 1.543788
6 1.321564
7 1.097949
8 0.858361
9 0.650442
10 0.483803
11 0.311368
12 0.179535
13 0.030387
14 -0.090738
15 -0.190230
16 -1.009120
17 -1.279781
18 -1.481310
19 -1.653360
20 -1.852712
21 -2.066579
22 -2.304651
23 -2.430194
24 -2.586958
25 -2.479082

通过 y'=a+bx进行拟合,求得:

  • a=2.720356493401576
  • b=-0.22231048384577703

预测未来的发展趋势

根据 y=k/(1+e^(a+bx))可以求得未来的确诊量变化趋势如下:

日期 x y 预计增量 实际结果 增量偏差 累计偏差
20200220  24 76140 248
20200221  25 77189 192
20200222  26 52183 147
20200223  27 52296 113
20200224  28 52383 87
20200225  29 52449 66
20200226  30 52500 51
20200227  31 52539 39
20200228  32 52569 30
20200229  33 52591 22
20200301 34 52609 18
20200302 35 52622 13
20200303 36 52632 10
20200304 37 52640 8
20200305 38 52646 6
20200306 39 52650 4
20200307 40 52654 4
20200308 41 52656 2
20200309 42 52658 2
20200310 43 52660 2

结论

  • 预计最终确诊数量约为52665
  • 预计2月23号左右确诊数量将逐步降低到100以下
  • 预计3月4号左右确诊数量将下降到10个以内,疫情防疫工作将基本结束
ml/sample/2020-01-ncp-0222.1582346603.txt.gz · 最后更改: 2020/07/12 12:07 (外部编辑)