Connect with us

人工智能

发布COVID-19开放数据集用于机器学习

mm

白宫科学和技术政策办公室 正在要求研究人员使用人工智能(AI)技术分析成千上万的学术文章。所有这些文章,总计约29,000篇,可能会为我们提供有关冠状病毒的答案。数据库中的约13,000篇文章是完整的且可被机器阅读。至于另外的16,000篇文章,数据库中有部分文本和摘要。

在过去的几天里,美国政府官员与美国科技公司和研究机构合作,获得了使冠状病毒论文可用的法律许可。

该开放数据集被称为COVID-19开放研究数据集,或CORD-19。它将不断添加新信息到一个集中枢纽,提供研究人员和其他人访问它的单一地点。

白宫宣布的合作伙伴包括Chan Zuckerberg Initiative,Microsoft Research,Allen Institute for Artificial Intelligence,国家卫生研究院的国家医学图书馆,乔治城大学的安全和新兴技术中心,Cold Spring Harbor Laboratory和Kaggle AI平台,后者由Google拥有。

根据美国首席技术官Michael Kratsios的说法,CORD-19数据集是“迄今为止最全面的机器可读的冠状病毒文献”。

国家科学院,工程和医学与世界卫生组织(WHO)合作制定了“高优先级”的问题。这些问题围绕着冠状病毒与遗传学,潜伏期,治疗,症状和预防的关系。

数据库中的一些研究是从medRxiv和bioRxiv等资源中提取的预发表研究。这些是开放访问档案。

Cori Bargmann是Chan Zuckerberg Initiative的科学负责人。

“在科学和医学界共享关键信息是加速我们应对冠状病毒大流行的能力的关键,”Bargmann说。

根据白宫发布的行动号召,数据库集合是通过使用Microsoft的网络规模文学策划工具开发的,该工具识别并汇集了来自全球的不同科学工作。Chan Zuckerberg Initiative提供了对预发表内容的访问,国家医学图书馆提供了对文学内容的访问,而Allen AI团队格式化了内容以便于分析。

Eric Horvitz博士是Microsoft的首席科学官。

“我们正在应对COVID-19大流行,需要全力以赴,”Horvitz说。“我们需要团结起来,作为公司,政府和科学家,共同努力,将我们最好的技术应用于生物医学,流行病学,人工智能和其他科学领域。COVID-19文献资源和挑战将激发能够加速COVID-19解决方案的努力。”

许多人希望这种方法能够奏效,并在未来为人工智能技术和机器学习提供一种新的利用方式。其中之一是Dewey Murdick博士,Georgetown University的安全和新兴技术中心的数据科学主任。Murdick博士帮助协调了该项目。

“这个宝贵的新资源是无私合作的成果,现在为我们提供了找到有关COVID-19的重要问题的答案的机会,”Murdick博士说。“一旦危机过去,我们希望这个项目能够激发新的利用机器学习来推进科学研究的方式。”

如果这个项目能够成功地提供有关冠状病毒的所需答案,它可能会成为未来的典范。人工智能技术是一种强大的工具,它可以比人类更快地分析来自全球的专家和机构的结果。这意味着在大流行或其他危机爆发时,响应时间更快,这可能会挽救许多生命,防止经济动荡。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。