用户工具

站点工具


sample:2020-01-ncp

这是本文档旧的修订版!


使用逻辑回归曲线拟合2020新型冠状蔓延趋势

免责声明

本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合,仅为个人的学术研究, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担!

逻辑回归概述

逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为:

y=1/(1+e^x)

其数学曲线为:

因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势!

基础数据准备

根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下:

日期 x(公布日期-20200120) y(确诊数量)
20200120 - 291
20200121 - 440
20200122 - 571
20200123 - 830
20200124 - 1287
20200125 - 1975
20200126 - 2744
20200127 0 4515
20200128 1 5974
20200129 2 7711
20200130 3 9692
20200131 4 11791
20200201 5 14380
20200202 6 17205
20200203 7 20438
20200204 8 24324
20200205 9 28018
20200206 10 31161
20200207 11 34546
20200208 12 37198
20200209 13 40235
20200210 14 40708

逻辑回归公式变换

传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下:

y=k/(1+e^(a+bx))

该公式增加三个参数:

  • k:用于控制最大的感染人数
  • a:用于控制曲线的左右移动
  • b:用于控制曲线的斜率

K(最大确诊量)值求解

1. 公式变换

根据上述公式可知:

k/y=1+e^(a+bx)

故此:

ln(k/y-1)=a+bx

2. 求解k

将数据表中的三个等距离的点(【0, 4515】,【7, 20438】,【14,40708】)分别代入上述公式可得:

  • ln(k/4515-1)=a
  • ln(k/20438-1)=a+b*7
  • ln(k/42708-1)=a+b*14

跟着上述三个公式可以求得:

k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515*42708-20438*(4515+42708))/(4515*42708-20438* 20438)=51665

意思根据现有的发展趋势,未来确诊真人数可能会在51665左右

预测后续数量发展趋势

通过拟合求解a,b

根据K值,可以计算得到y'=ln(k/y-1),结果如下:

日期 x y y'
20200127  4515 2.34592882221052
20200128  5974 2.03448462216902
20200129  7711 1.7404957516532
20200130  9692 1.46572575146498
20200131  11791 1.2183879538261
20200201  14380 0.952752748702858
20200202  17205 0.69459919185034
20200203  20438 0.423887192011424
20200204  24324 0.116923889813808
20200205  28018 -0.1696109037764
20200206  10  31161 -0.418547323852014
20200207  11  34546 -0.702102811478451
20200208  12  37198 -0.944384802745482
20200209  13  40235 -1.25849578579138
20200210  14  42708 -1.561950906823

通过 y'=a+bx进行拟合,求得:

  • a=
  • b=

预测未来的发展趋势

根据 y=k/(1+e^(a+bx))可以求得未来的确诊量变化趋势如下:

日期 x y 增量

结论

sample/2020-01-ncp.1581423664.txt.gz · 最后更改: 2020/07/12 12:07 (外部编辑)