标签:
谷歌流感预测it |
甲型流感HxNx共135种排列组合,为何以H3、H5、H7、H9开头的“禽传人”流感让人恐慌?为何H7N9迅速成为百度指数火箭词?
这是个靠数据说话的年代,卫生部今年初发布的《2011中国卫生统计年鉴》说明了答案——
(别问我这么恐怖的数据是怎么算出来的,这是卫生部统计年鉴原链)
就此,杜子建老湿发了一条很有“大数据范儿”的微博——
微博可以监测到禽流感是否暴发,甚至可以监测到未来两三天。请新浪技术组使用数据流监测关键词指数。(感冒,发烧,高烧,头痛,住院,流汗,发冷)等关键词。指数升高,定有异常,比卫生部更有效。请相信我。
想必任何一位哪怕仅仅是翻阅过《BIG
DATA》的读者,都会对引言中“Google成功预测流感”的案例印象深刻。但是,作为一项新产品,或者说大数据理念的实战演练,靠互联网监测甚至预测流感,恐怕还有很长的路要走。
2008年时的一项研究发现,Yahoo搜索关键字“流感”,与多年来的病毒学及死亡率监测数据有很大的关联。几乎与此同时,Google推出了“流感指数”,为大众提供流感预测信息。而有关这个系统的方法论也被发表到了《自然》杂志上。
这个系统主要的运作原理是:通过分析Google的搜索查询数据,来跟踪人群中的流感状病例。在人们的搜索查询中,与流感病例最相近的词语是——“流感并发症”、“感冒补救措施”、“抗生素药物”等。
当然,Google的攻城狮们还为这些数据匹配了一套复杂的算法,以便将得出的数据曲线与CDC(美国疾病控制预防中心)的报告曲线有较好的拟合。最终达到实时评估、自动发现的效果。
在Google“流感指数”的产品介绍视频中,程序猿们是如此的兴奋,以至于专门插入了这样的一帧信息——
(与分析几千亿查询数据的Google比起来,CDC不免显得又老又慢)
随着搜索引擎监测流感取得初步战果,社交网站的内容数据也被产品经理们相中。有人从163万条Twitter数据中摘取关键字,也收获了完全可以与Google媲美的完美曲线——
此外,flunearyou.org 、sickweather.com 、 GrippeNet.fr
等由普通民众自愿参与的卫生网络,也被视为大数据理论在公共卫生领域的重要实践。
(sickweather.com,可以根据疾病的24个不同的特征在社交网站中搜索,并将搜索结果显示在地图中)
但是,同为互联网产品,疾病监测不同于QQ秀,酷炫感显然不比健壮性重要。
2009年,H1N1(猪流感)流行伊始,Google模型严重低估了流感病例的数量,迫使该系统不得不修改算法。然而到了今年年初时,Google“流感指数”却又大大高估了流感的峰值水平。
上图中的“CDC data”,是根据美国2700个医疗机构反馈得出的数据,定期发布。而“Flu Near
You”,则是由遍布美国的4万多名参与者组建的民间流感监测网络。可以发现,Google在2013年初大大高估了流感病例的峰值。
或许正如新西兰奥塔哥大学的研究所表明的那样——“整体而言,Google流感指数提供了有益的监控系统,但它应该被看作是补充,而不是替代。”
其实,更严重的问题并不是Google的产品是否健壮。而是美国疾控中心在事实上与Google流感指数和“Flu Near
You”同时展开合作。最终的结果却是——在同一时间点,三方拿出的数据却相差甚远。
(同样的坐标参照系下,三张神仙打架的美国流感地图)
无论是在屏蔽数据噪音上,还是在算法结构上,“互联网流感指数”类产品,都还有很大的进步空间。比如Google两次重大的指数错误,便是由于流感新闻大爆炸,导致搜索行为失真。而在sickweather的地图中,大城市上空永远笼罩“疾病云”,那些少人上网的旷野乡村则缺乏数据。如若现在就信誓旦旦地表示“比卫生部更有效”,其结果很可能令人失望。至于卫生部门的公信力,那是另一个话题了。
————多说两句的分隔线————
虽然目前还只能作为参考和补充,但大数据理念下的互联网行为分析,定将在未来显示巨大威力,这是毋庸置疑的。正因此,海外医界学界对互联网监测流感的研究可谓五花八门:有2004年就通过Google
Adsense进行研究的医学博士、有通过Twitter
API进行语义分析的日本学者、有进行了近两年门诊数量对比研究的基层大夫……仅H1N1的相关试验,就至少有两个国家的学者分别完成过。
与海外如此大量成熟的研究相比,我国医界学界又做出了哪些努力?
在千辛万苦后,终于找到一篇还算与本文讨论话题比较接近的国产论文——《微博与传统网络媒体对一起人禽流感疫情舆情监测特点分析》,研究目的是“提高舆情监测在突发公共卫生事件中的效能”。该论文竟然还是有基金赞助的,是2011年度广州市医药卫生科技项目……
前一篇:谁说互联网是公平开放的?别傻了
后一篇:京东&百度:命中注定在一起