加拿大多伦多创业公司BlueDot开发的人工智能预警系统每天可以过滤65种语言发布的10万余篇文章及网贴。2019年的最后一天,该系统对一条来自中国的新闻发出了预警,其中提及武汉发现不明原因肺炎。在收到人工智能系统的预警之后,BlueDot的人类员工随即便发现了不明肺炎与2003年爆发的SARS之间的相似性。
在切换至另一系统、并对数十亿名航空旅客的出行记录进行分析之后,BlueDot几乎立刻找出了全球范围内最容易受到该种不明疾病扩散影响的城市,并向卫生主管机构与其他客户发出了警报。这种疾病后来被命名为新冠肺炎,截至目前,已感染超过20万人,并造成超过8000人死亡。
BlueDot首席执行官、多伦多大学医学教授卡姆兰·可汗博士表示:“病毒不会在乎你是不是在过新年。要想走在疾病和威胁的前面,我们的行动必须要比它们更迅速才行。”
如今的情况与可汗7年前创立BlueDot时已大不相同。当时,描绘病毒的潜在扩散情况,并向主管机构发出预警可能需要耗费数周时间。而政府有时在拿到数据几周甚至几个月之后仍迟迟不愿采取任何行动。
现在,随着人工智能和大数据时代的到来,追踪、预报传染性疾病(如新冠肺炎)传播路径的方法已经被彻底改变。借助翻译及语义识别算法(例如,分辨出Anthrax是一支重金属乐队,而anthrax指的则是炭疽),BlueDot及其同行能够尽可能收集所有数据并从中发现流行病的蛛丝马迹。
给出预警越早、越详细,对卫生主管机构确定感染患者筛查和资源投放地越有帮助。抢先一步就能拯救成千上万条生命。
在新冠疫情中,借助人工智能给出的警示,世卫组织及中国的官员做出了比SARS等疫情爆发时更快的反应。但早期预警能起到的作用也很有限:疫情初期,武汉政府因行动迟缓而饱受批评,美国则因缺乏检测试剂盒而在疫情面前进退失据。
在高度互联和移动化的今天,各种网络数据,从搜索关键词到维基百科访客位置信息,都能为这些由初创企业所打造的预警系统所用。
全球顶级的互联网企业为其提供了大部分数据。例如,谷歌为一些流行病监测初创企业提供了搜索关键词及位置信息数据,Facebook则整合并分享了用户活动数据及Facebook群组、Instagram中提及新冠病毒信息的数据。Twitter、腾讯和其他企业也为这些算法提供了匿名数据。通常情况下,这些流行病监测算法并不在企业自己的计算机中运行,而是依托Amazon、微软和Google管理的配备有人工智能专用芯片的服务器运行。
但要想成功监测流行病,只向人工智能和机器学习系统中输入海量信息肯定行不通。Google就曾关停过一个季节性流感预测项目,该项目严重高估了2013年季节性流感的严重性。该系统遇到的一个问题在于,当时,Google想要帮助民众更好地搜索医疗信息,但搜索量的变化却导致预测系统误以为有很多人染病,进而做出了高于实际传染情况的预测。
对于开发流行病监测系统的企业而言,其挑战在于如何确保这些系统只关注与疾病相关的数据,而不会被无关的恐慌信息所误导。也正因此,所有此类系统都要依靠人工对每个个案进行深入调查,并且需要频繁的调整信息源。波士顿儿童医院首席创新官约翰·布朗斯坦恩表示:“我们得明白,由于人们的网络活动,数据一直在变化,所以我们也需要不断地调整算法”。他同时也是另一家人工智能预警系统HealthMap的联合创始人,该系统比BlueDot早一天就新冠病毒发出预警。
当时,武汉当地医生在一个名为ProMed的网络论坛表达了自己(对疫情)的担忧,在这些资讯的支撑下,HealthMap人工智能系统对新冠病毒发出了预警。布朗斯坦恩表示,这些医生发布的帖子就像“矿井中的金丝雀,其中提供的数据指出了更深层的问题”。
及时获取最新数据同样重要。人工智能流行病监测初创企业Metabiota的数据科学总监马卡·加里文指出,起初大家都是用以前的航空数据对新冠病毒的传播情况进行模拟。但随着疫情浮出水面,中国政府开始在部分地区实施交通管制,出行情况也发生了变化。这家位于旧金山的企业也因此更新了自己的数据库,用数百万部手机的实时定位信息替代了旅客的历史出行记录。他表示:“在1月14日(的预警中),最早表现出高输入风险的四个国家事实上也最早出现了输入性病例”。
另外还要过滤掉网络八卦和新闻报道,确保使用真实的医疗数据。Kinsa是一家位于旧金山的初创企业,该公司出售的智能温度计可以与手机应用一起使用,帮助用户了解什么时候应该去看医生。全美约有100万个家庭和超过1000所学校在使用他们的设备,借助这种温度计,我们能够获得美国季节性流感传播情况的一些线索。这家成立已有8年的公司声称其预测的准确度已连续多年超过美国疾控中心,且其希望开发一种能够提前3个月预测出本地流感爆发情况的流感预测系统。
“区别在于数据的质量,” Kinsa首席执行官英德尔·辛格解释道。
当然,只有在使用了Kinsa设备的区域,这种方法才有效果,换句话说,就是在美国多数城市可能有用,而在农村地区可能就没什么太大用处了。该公司目前还没有进军海外,对许多其它国家的民众而言,售价20美元一支的体温计或许也超出了他们的承受范围。
话虽如此,但直接接入人工智能系统的医疗设备越多,实现更为快捷和精确预警系统的希望也就越大,Metabiota的加里文表示:“要想更早发现(疫情),就需要打造一种更加智能的公共卫生医疗体系。”
人工智能流行病预测相关数据
智能互联医疗设备
数百万患者使用的温度计及医疗设备能够将数据直接发送给手机应用。而这些数据汇总以后可以发出预警,提醒(相关部门)出现了大批发热病人。
搜索关键字与定位信息
人们在某时、某地大量查询(某种疾病)可能也是疫情爆发的讯号。但出现这种现象既可能是因为出现疫情,也可能只是因为恐慌心理,所以必须对此类数据进行仔细筛查。
当地新闻
当地记者常常会将不寻常的医疗问题与病毒爆发当作新闻报道的素材。使用自然语言处理工具可以对这些文章进行翻译和分析。
航空出行模式
每年乘坐飞机出行的旅客数大约为40亿人次。通过分析航空出行的历史数据,可以找到暴发疫情城市的居民最喜欢去那些地方,进而推测出其它城市的疫情传播情况。(财富中文网)
译者:梁宇
审校:夏林
加拿大多伦多创业公司BlueDot开发的人工智能预警系统每天可以过滤65种语言发布的10万余篇文章及网贴。2019年的最后一天,该系统对一条来自中国的新闻发出了预警,其中提及武汉发现不明原因肺炎。在收到人工智能系统的预警之后,BlueDot的人类员工随即便发现了不明肺炎与2003年爆发的SARS之间的相似性。
在切换至另一系统、并对数十亿名航空旅客的出行记录进行分析之后,BlueDot几乎立刻找出了全球范围内最容易受到该种不明疾病扩散影响的城市,并向卫生主管机构与其他客户发出了警报。这种疾病后来被命名为新冠肺炎,截至目前,已感染超过20万人,并造成超过8000人死亡。
BlueDot首席执行官、多伦多大学医学教授卡姆兰·可汗博士表示:“病毒不会在乎你是不是在过新年。要想走在疾病和威胁的前面,我们的行动必须要比它们更迅速才行。”
如今的情况与可汗7年前创立BlueDot时已大不相同。当时,描绘病毒的潜在扩散情况,并向主管机构发出预警可能需要耗费数周时间。而政府有时在拿到数据几周甚至几个月之后仍迟迟不愿采取任何行动。
现在,随着人工智能和大数据时代的到来,追踪、预报传染性疾病(如新冠肺炎)传播路径的方法已经被彻底改变。借助翻译及语义识别算法(例如,分辨出Anthrax是一支重金属乐队,而anthrax指的则是炭疽),BlueDot及其同行能够尽可能收集所有数据并从中发现流行病的蛛丝马迹。
给出预警越早、越详细,对卫生主管机构确定感染患者筛查和资源投放地越有帮助。抢先一步就能拯救成千上万条生命。
在新冠疫情中,借助人工智能给出的警示,世卫组织及中国的官员做出了比SARS等疫情爆发时更快的反应。但早期预警能起到的作用也很有限:疫情初期,武汉政府因行动迟缓而饱受批评,美国则因缺乏检测试剂盒而在疫情面前进退失据。
在高度互联和移动化的今天,各种网络数据,从搜索关键词到维基百科访客位置信息,都能为这些由初创企业所打造的预警系统所用。
全球顶级的互联网企业为其提供了大部分数据。例如,谷歌为一些流行病监测初创企业提供了搜索关键词及位置信息数据,Facebook则整合并分享了用户活动数据及Facebook群组、Instagram中提及新冠病毒信息的数据。Twitter、腾讯和其他企业也为这些算法提供了匿名数据。通常情况下,这些流行病监测算法并不在企业自己的计算机中运行,而是依托Amazon、微软和Google管理的配备有人工智能专用芯片的服务器运行。
但要想成功监测流行病,只向人工智能和机器学习系统中输入海量信息肯定行不通。Google就曾关停过一个季节性流感预测项目,该项目严重高估了2013年季节性流感的严重性。该系统遇到的一个问题在于,当时,Google想要帮助民众更好地搜索医疗信息,但搜索量的变化却导致预测系统误以为有很多人染病,进而做出了高于实际传染情况的预测。
对于开发流行病监测系统的企业而言,其挑战在于如何确保这些系统只关注与疾病相关的数据,而不会被无关的恐慌信息所误导。也正因此,所有此类系统都要依靠人工对每个个案进行深入调查,并且需要频繁的调整信息源。波士顿儿童医院首席创新官约翰·布朗斯坦恩表示:“我们得明白,由于人们的网络活动,数据一直在变化,所以我们也需要不断地调整算法”。他同时也是另一家人工智能预警系统HealthMap的联合创始人,该系统比BlueDot早一天就新冠病毒发出预警。
当时,武汉当地医生在一个名为ProMed的网络论坛表达了自己(对疫情)的担忧,在这些资讯的支撑下,HealthMap人工智能系统对新冠病毒发出了预警。布朗斯坦恩表示,这些医生发布的帖子就像“矿井中的金丝雀,其中提供的数据指出了更深层的问题”。
及时获取最新数据同样重要。人工智能流行病监测初创企业Metabiota的数据科学总监马卡·加里文指出,起初大家都是用以前的航空数据对新冠病毒的传播情况进行模拟。但随着疫情浮出水面,中国政府开始在部分地区实施交通管制,出行情况也发生了变化。这家位于旧金山的企业也因此更新了自己的数据库,用数百万部手机的实时定位信息替代了旅客的历史出行记录。他表示:“在1月14日(的预警中),最早表现出高输入风险的四个国家事实上也最早出现了输入性病例”。
另外还要过滤掉网络八卦和新闻报道,确保使用真实的医疗数据。Kinsa是一家位于旧金山的初创企业,该公司出售的智能温度计可以与手机应用一起使用,帮助用户了解什么时候应该去看医生。全美约有100万个家庭和超过1000所学校在使用他们的设备,借助这种温度计,我们能够获得美国季节性流感传播情况的一些线索。这家成立已有8年的公司声称其预测的准确度已连续多年超过美国疾控中心,且其希望开发一种能够提前3个月预测出本地流感爆发情况的流感预测系统。
“区别在于数据的质量,” Kinsa首席执行官英德尔·辛格解释道。
当然,只有在使用了Kinsa设备的区域,这种方法才有效果,换句话说,就是在美国多数城市可能有用,而在农村地区可能就没什么太大用处了。该公司目前还没有进军海外,对许多其它国家的民众而言,售价20美元一支的体温计或许也超出了他们的承受范围。
话虽如此,但直接接入人工智能系统的医疗设备越多,实现更为快捷和精确预警系统的希望也就越大,Metabiota的加里文表示:“要想更早发现(疫情),就需要打造一种更加智能的公共卫生医疗体系。”
人工智能流行病预测相关数据
智能互联医疗设备
数百万患者使用的温度计及医疗设备能够将数据直接发送给手机应用。而这些数据汇总以后可以发出预警,提醒(相关部门)出现了大批发热病人。
搜索关键字与定位信息
人们在某时、某地大量查询(某种疾病)可能也是疫情爆发的讯号。但出现这种现象既可能是因为出现疫情,也可能只是因为恐慌心理,所以必须对此类数据进行仔细筛查。
当地新闻
当地记者常常会将不寻常的医疗问题与病毒爆发当作新闻报道的素材。使用自然语言处理工具可以对这些文章进行翻译和分析。
航空出行模式
每年乘坐飞机出行的旅客数大约为40亿人次。通过分析航空出行的历史数据,可以找到暴发疫情城市的居民最喜欢去那些地方,进而推测出其它城市的疫情传播情况。(财富中文网)
译者:梁宇
审校:夏林
On the last day of 2019, an artificial intelligence warning system run by Toronto startup BlueDot flagged a news report from China about a mysterious pneumonia strain in the city of Wuhan. The system, which sifts through 100,000 articles and online posts daily in 65 languages, alerted BlueDot’s human employees, who immediately saw parallels to the deadly SARS outbreak in 2003.
After switching to a system based on data from billions of airline passenger itineraries, BlueDot was able to determine almost instantaneously which cities worldwide were most at risk if the mystery illness spread. The company quickly sent out warnings to health authorities and other clients about what would come to be called the coronavirus outbreak, which has so far infected almost 100,000 people and killed more than 3,000 as of early March.
“Outbreaks don’t care whether it’s New Year’s Eve or not,” says Dr. Kamran Khan, CEO at BlueDot and a medical professor at the University of Toronto. “In order to get in front of these diseases and threats, we have to move even faster than they do.”
It’s a far cry from when Khan started BlueDot about seven years ago. Back then, mapping the potential spread of a virus and alerting authorities could take several weeks. And reluctant governments would sometimes sit on the data for weeks or months after that.
But the era of A.I. and big data has revolutionized tracking and forecasting the path of infectious disease outbreaks like that of the coronavirus. Fueled by algorithms that can translate languages and distinguish between different meanings—Anthrax, the heavy metal band, versus anthrax, the infectious disease—BlueDot and its rivals suck up all the data they can to uncover potential epidemics.
The earlier and more detailed their warnings are, the better health authorities can tell where to screen for infected people and allocate resources. A brief head start can save thousands of lives.
With the coronavirus, A.I.-based alerts helped the World Health Organization and China’s officials react more quickly than they did during previous outbreaks like that of SARS. Still, early warnings can do only so much: China’s government has been criticized for moving too slowly, while the U.S. stumbled over a lack of test kits.
The systems created by the startups feed off information generated by an ever more interconnected and mobile world, using everything from search keyword data to the location of people clicking on Wikipedia pages.
Much of the data comes from the world’s largest Internet companies, including Google, which supplies search keyword and location data to some pandemic-detection startups. Meanwhile, Facebook has shared aggregated data about users’ movements as well as posts mentioning the coronavirus from Facebook Groups and Instagram. Anonymized data from Twitter, China’s Tencent, and others also fuels the algorithms, which typically run not on the monitoring firms’ own computers but on servers managed by Amazon, Microsoft, and Google that use chips specifically designed for A.I.
To be sure, pumping huge amounts of information into A.I. and machine-learning systems is no guarantee of success. For example, Google shuttered a project that forecast the severity of seasonal flu outbreaks after it wildly overestimated the 2013 cycle. One problem was that Google’s own efforts to help people search for health care information fooled the system into forecasting that more people were getting sick.
The challenge for companies developing pandemic-detection systems is to ensure that they focus only on relevant bits of information, without getting misled by hysteria that’s unrelated to actual illnesses. That’s why all of the systems still rely on humans to look deeper into each case and why they frequently adjust the sources of information that their technology relies on. “You have to recognize that data is constantly changing based on what people are doing online and always have to retune your algorithms for that,” says John Brownstein, chief innovation officer at Boston Children’s Hospital and cocreator of another A.I. alert system, HealthMap, which warned about the coronavirus a day before BlueDot.
HealthMap’s A.I.-generated warning about the coronavirus was backed up by intel from local physicians in Wuhan who were sharing their concerns in an online forum called ProMed. Such posts are the “early canaries in a coal mine that can provide data pointing to do a deeper dive,” Brownstein says.
Using fresh data is also important. Initial simulations of how the coronavirus may spread relied on past air travel itineraries. But once the outbreak became known and governments began banning movement in certain regions of China, travel patterns changed, notes Mark Gallivan, director of data science at Metabiota, another startup using A.I. to detect pandemics. As a result, the San Francisco company updated its library of historical passenger information with real-time location data from millions of mobile phones. “The first four countries that showed the highest importation risk on Jan. 14 were actually the first four that ended up receiving cases,” he says.
Another approach is to eschew all the online chatter and news reports and instead use actual medical data. San Francisco startup Kinsa sells smart thermometers that work with an app to help people decide when to see a doctor. With about 1 million households and more than 1,000 schools using Kinsa gear, those thermometers provide clues about the spread of the seasonal flu in the U.S. The eight-year-old company claims to have exceeded the accuracy of the Centers for Disease Control’s flu forecast for some years and hopes to develop a system that could predict flu outbreaks in local areas up to three months in advance.
“The difference is the quality of the data,” Kinsa CEO Inder Singh explains.
Of course, the Kinsa method works only where people use its devices. In the U.S., that means most cities but not so much in rural areas. And the company has yet to expand to other countries, where even a $20 smart thermometer may be too pricey for most people.
Ultimately, though, more medical devices reporting directly to A.I. systems could make for the quickest and most accurate early-warning system, says Metabiota’s Gallivan: “For earlier detection, it’s about creating a much smarter public health and medical system.”
The data fueling A.I. pandemic predictions
Smart, connected medical devices
Millions of patients are treated with thermometers and other devices that send data to an app. The aggregate information can provide early warning of a cluster of patients with fever, for example.
Search keywords and locations
The questions people want answered at a particular time and place can signal an outbreak. But the data must be filtered carefully, as search queries can reflect hysteria as much as a real epidemic.
Local news articles
Reporters on the ground often write stories about unusual medical problems or virus outbreaks. The articles can be translated and analyzed using natural-language processing.
Air travel patterns
Airlines generate about 4 billion travel itineraries annually. That historical data can be used to predict how an outbreak may spread to other cities based on the most popular destinations from the source city.