人工智能
发布COVID-19开放数据集用于机器学习

白宫科学和技术政策办公室 正在敦促研究人员使用人工智能(AI)技术分析数千篇学术文章。所有这些文章,总计约29,000篇,可能会为我们提供有关冠状病毒的答案。在数据库中的约13,000篇文章全部以机器可读的形式呈现。至于另外的16,000篇文章,数据库中包含部分文本和摘要。
在过去的几天里,美国政府官员与美国科技公司和研究机构合作,获得了使冠状病毒论文公开可用的法律许可。
该开放数据集被称为COVID-19开放研究数据集,或CORD-19。它将不断地将新信息添加到一个集中枢纽中,为研究人员和其他人提供一个访问信息的单一地点。
白宫宣布的合作伙伴包括Chan Zuckerberg Initiative,Microsoft Research,Allen Institute for Artificial Intelligence,国家卫生研究院的国家医学图书馆,乔治城大学的安全和新兴技术中心,Cold Spring Harbor Laboratory和Kaggle AI平台,后者由Google拥有。
根据美国首席技术官Michael Kratsios的说法,CORD-19数据集是“迄今为止最全面的机器可读冠状病毒文献集合”。
国家科学院,工程和医学与世界卫生组织(WHO)合作制定了“高优先级”问题。这些问题围绕着冠状病毒与基因,潜伏期,治疗,症状和预防的关系。
数据库中的一些研究是从medRxiv和bioRxiv等开放访问档案中获取的预发表研究。
Cori Bargmann是Chan Zuckerberg Initiative的科学负责人。
“在科学和医疗社区之间共享关键信息是加速我们应对冠状病毒大流行的能力的关键,”Bargmann说。
根据白宫发布的行动号召,数据库集合是通过使用Microsoft的网络规模文献策划工具开发的,该工具识别并汇集了来自全球的不同科学工作。Chan Zuckerberg Initiative提供了对预发表内容的访问,国家医学图书馆提供了对文献内容的访问,而Allen AI团队格式化了内容以便于分析。
Eric Horvitz博士是Microsoft的首席科学官。
“我们正面临着COVID-19大流行,需要全力以赴,”Horvitz说。“我们需要团结起来,作为公司,政府和科学家,共同努力,将我们最好的技术应用于生物医学,流行病学,人工智能和其他科学领域。COVID-19文献资源和挑战将激发能够加速COVID-19解决方案的努力。”
许多人希望这种方法能够奏效,并在未来提供一种新的利用人工智能技术和机器学习的方式。其中之一是Dewey Murdick博士,乔治城大学安全和新兴技术中心的数据科学主任。Murdick博士帮助协调了该项目。
“这个宝贵的新资源是无私合作的成果,现在为我们提供了找到有关COVID-19的重要问题答案的机会,”Murdick博士说。“一旦危机过去,我们希望这个项目能够激发新的利用机器学习推进科学研究的方式。”
如果这个项目能够证明其必要性并为冠状病毒提供答案,它可能会被用作未来的模型。人工智能技术是一种强大的工具,它可以比人类更快地分析来自全球各地的专家和机构的结果。这意味着在流行病或其他危机爆发时,响应时间将更快,这可能会挽救许多生命并防止经济动荡。












