这是本文档旧的修订版!
本文仅是个人采用数学方法,使用逻辑回归曲线对新冠状病毒发展趋势进行拟合,仅为个人的学术研究, 本人对最终结论不承担任何责任!任何基于本次研究结论所做出的的决策,相应责任请自行承担!
逻辑回归是机器学习中非常常用的一种机器学习算法,其公式为:
y=1/(1+e^x)
其数学曲线为:
因其曲线走势与病区确诊人数曲线非常接近,故此本文采用逻辑回归曲线根据现已公布的确认人数进行拟合,从而预测未来肺炎发展的走势!
根据官方公布的数据,去2020/1/20为第一天,但是考虑到前期诊断不足,从1月27号开始进行计算,记录每一天的确认人数如下:
日期 | x(公布日期-20200120) | y(确诊数量) |
---|---|---|
20200120 | - | 291 |
20200121 | - | 440 |
20200122 | - | 571 |
20200123 | - | 830 |
20200124 | - | 1287 |
20200125 | - | 1975 |
20200126 | - | 2744 |
20200127 | 0 | 4515 |
20200128 | 1 | 5974 |
20200129 | 2 | 7711 |
20200130 | 3 | 9692 |
20200131 | 4 | 11791 |
20200201 | 5 | 14380 |
20200202 | 6 | 17205 |
20200203 | 7 | 20438 |
20200204 | 8 | 24324 |
20200205 | 9 | 28018 |
20200206 | 10 | 31161 |
20200207 | 11 | 34546 |
20200208 | 12 | 37198 |
20200209 | 13 | 40235 |
20200210 | 14 | 40708 |
传统的逻辑回归公式计算计算结果为0-1,且x可以从负无穷到正无穷,需对其进行调整,结果如下:
y=k/(1+e^(a+bx))
该公式增加三个参数:
根据上述公式可知:
k/y=1+e^(a+bx)
故此:
ln(k/y-1)=a+bx
将数据表中的三个等距离的点(【0, 4515】,【7, 20438】,【14,40708】)分别代入上述公式可得:
跟着上述三个公式可以求得:
k=y1*(2*y0*y2-y1*(y0+y2))/(y0*y2-y1*y1)=20438*(2*4515*42708-20438*(4515+42708))/(4515*42708-20438* 20438)=51665
意思根据现有的发展趋势,未来确诊真人数可能会在51665左右
根据K值,可以计算得到y'=ln(k/y-1),结果如下:
日期 | x | y | y' |
---|---|---|---|
20200127 | 0 | 4515 | 2.34592882221052 |
20200128 | 1 | 5974 | 2.03448462216902 |
20200129 | 2 | 7711 | 1.7404957516532 |
20200130 | 3 | 9692 | 1.46572575146498 |
20200131 | 4 | 11791 | 1.2183879538261 |
20200201 | 5 | 14380 | 0.952752748702858 |
20200202 | 6 | 17205 | 0.69459919185034 |
20200203 | 7 | 20438 | 0.423887192011424 |
20200204 | 8 | 24324 | 0.116923889813808 |
20200205 | 9 | 28018 | -0.1696109037764 |
20200206 | 10 | 31161 | -0.418547323852014 |
20200207 | 11 | 34546 | -0.702102811478451 |
20200208 | 12 | 37198 | -0.944384802745482 |
20200209 | 13 | 40235 | -1.25849578579138 |
20200210 | 14 | 42708 | -1.561950906823 |
通过 y'=a+bx进行拟合,求得: