AI使用谷歌趋势数据来预测感染流感人数
2019年07月09日 由 Aaron 发表
681096
0
据估计,每年流感导致3140多万人次就诊,20多万人次前往急诊室和医院。仅在2017年至2018年期间发生的流感疫情就是近年来持续时间最长、最严重的疫情之一,造成约8万人死亡,近100万人住院。
毋庸置疑,AI有足够的动力来预测流感爆发的范围和严重程度,东京大学的科学家们描述了一个系统,该系统可以利用谷歌趋势的数据,分析了谷歌搜索的热门搜索查询以提高精度。他们报告说,该方法在初步测试中取得了最先进的结果。
论文共同作者写道,“在早期阶段预测流感减少了其影响,同时确定了帮助医务人员做出正确决定的疫苗和其他抗流感药物的数量。我们已经进行了各种研究来预测感染流感的人数。”
该团队利用一种名为序列到序列的人工智能模型,它可以根据内部信号选择性地处理输入数据。与大多数机器学习系统一样,序列到序列模型由多层数学函数神经元组成,这些神经元吸收数据并将其传递给后续的各层,在此过程中调整神经元之间连接的强度(权重)。编码器组件输出与输入对应的编码向量,而解码器对输入向量进行编码并预测下一个时间步长输出。
至于谷歌趋势数据,研究人员使用它来衡量人们在任何特定时间点对流感的兴趣。具体来说,他们用流感一词的检索频率作为模型的补充信息,这有助于补偿从流感样疾病集中编写的黑暗数据(已获得但未用于获取见解的数据)。
总而言之,该团队使用了六个州(纽约州,俄勒冈州,加利福尼亚州,伊利诺伊州,德克萨斯州和乔治亚州)因气候多样性而被感染流感样疾病的未加权百分比。
研究人员将这些数据与2010年10月10日至2018年12月30日(430周)期间针对谷歌趋势的数据相结合。大约67%的数据用于训练AI模型,37%用于测试。
在测试中,与基线模型相比,有注意力的序列到序列模型具有显著更高的皮尔逊相关度。此外,它的均方根误差为0.67,表明数据相对集中在最佳拟合线附近。
研究人员警告说,随着预测时间的增加,峰值会向下移动,因为无法从学习数据中准确预测峰值时间。但是,他们认为增加一个领先指标可以进一步提高准确性。
论文:
arxiv.org/ftp/arxiv/papers/1907/1907.02786.pdf