用户工具

站点工具


ml:sample:2020-01-ncp-0222

这是本文档旧的修订版!


2020新型冠数据拟合预测-20200222

免责声明

本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担!

逻辑回归概述

逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为:

y=1/(1+e^x)

其数学曲线为:

因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势!

基础数据准备

根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下:

日期 x(公布日期-20200120) y(确诊数量)
20200120 - 291
20200121 - 440
20200122 - 571
20200123 - 830
20200124 - 1287
20200125 - 1975
20200126 - 2744
20200127 0 4515
20200128 1 5974
20200129 2 7711
20200130 3 9692
20200131 4 11791
20200201 5 14380
20200202 6 17205
20200203 7 20438
20200204 8 24324
20200205 9 28018
20200206 10 31161
20200207 11 34546
20200208 12 37198
20200209 13 40235
20200210 14 42708
20200211 15 44730
20200212 16 59882
20200213 17 63932
20200214 18 66576
20200215 19 68584
20200216 20 70635
20200217 21 72528
20200218 22 74297
20200219 23 75101
20200220 24 75993
20200221 25 75392

逻辑回归公式变换

传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下:

y=k/(1+e^(a+bx))

该公式增加三个参数:

  • k:用于控制最大的感染人数
  • a:用于控制曲线的左右移动
  • b:用于控制曲线的斜率

K(最大确诊量)值求解

1. 公式变换

根据上述公式可知:

k/y=1+e^(a+bx)

故此:

ln(k/y-1)=a+bx

2. 求解k

将数据表中的三个等距离的点(【0, 4515】,【13, 40235】,【25, 75392】)分别代入上述公式可得:

  • ln(k/4515-1)=a
  • ln(k/40235-1)=a+b*13
  • ln(k/75392-1)=a+b*25

跟着上述三个公式可以求得:

k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515* 75392-40235*(4515+ 75392))/(4515* 75392-40235* 40235)=81711

意思根据现有的发展趋势,未来确诊真人数可能会在81711左右

预测后续数量发展趋势

通过拟合求解a,b

根据K值,可以计算得到y'=ln(k/y-1),结果如下:

x y'
0 2.838947
1 2.539855
2 2.261422
3 2.005634
4 1.780020
5 1.543788
6 1.321564
7 1.097949
8 0.858361
9 0.650442
10 0.483803
11 0.311368
12 0.179535
13 0.030387
14 -0.090738
15 -0.190230
16 -1.009120
17 -1.279781
18 -1.481310
19 -1.653360
20 -1.852712
21 -2.066579
22 -2.304651
23 -2.430194
24 -2.586958
25 -2.479082

通过 y'=a+bx进行拟合,求得:

  • a=2.720356493401576
  • b=-0.22231048384577703

预测未来的发展趋势

根据 y=k/(1+e^(a+bx))可以求得未来的确诊量变化趋势如下:

日期 x y 预计增量 实际结果 增量偏差 累计偏差
20200221 25 77189 1049
20200222 26 78050 861
20200223 27 78753 703
20200224 28 79326 573
20200225 29 79790 464
20200226 30 80166 376
20200227 31 80469 303
20200228 32 80714 245
20200301 33 80910 196
20200302 34 81069 159
20200303 35 81196 127
20200304 36 81298 102
20200305 37 81380 82
20200306 38 81446 66
20200307 39 81498 52
20200308 40 81541 43
20200309 41 81575 34
20200310 42 81602 27
20200311 43 81623 21
20200312 44 81641 18
20200313 45 81655 14
20200314 46 81666 11
20200315 47 81675 9
20200316 48 81682 7
20200317 49 81688 6

结论

  • 预计最终确诊数量约为81711
  • 预计3月5号左右确诊数量将逐步降低到100以下
  • 预计3月15号左右确诊数量将下降到10个以内,疫情防疫工作将基本结束
ml/sample/2020-01-ncp-0222.1582422306.txt.gz · 最后更改: 2020/07/12 12:07 (外部编辑)