存根 发布用于机器学习的 Covid-19 开放数据集 - Unite.AI
关注我们.

健康防护

发布用于机器学习的 Covid-19 开放数据集

更新 on

白宫科技政策办公室 要求研究人员利用人工智能 (AI) 技术分析数千篇学术文章。 所有文章数量约为 29,000 篇,可以提供有关冠状病毒问题的答案。 数据库中大约 13,000 篇文章是完整的并且是机器可读的。 至于其他16,000篇文章,数据库有部分文本和摘要。 

过去几天,美国政府官员与美国科技公司和研究机构合作,以获得公开冠状病毒论文的法律许可。 

该开放数据集称为 COVID-19 开放研究数据集,或 CORD-19。 它将不断地将新信息添加到一个集中中心,为研究人员和其他人提供一个访问这些信息的地方。

白宫宣布的合作伙伴包括陈·扎克伯格倡议、微软研究院、艾伦人工智能研究所、美国国立卫生研究院国家医学图书馆、乔治敦大学安全与新兴技术中心、冷泉港实验室和 Kaggle AI平台,该平台归谷歌所有。 

美国首席技术官 Michael Kratsios 表示,CORD-19 数据集是“迄今为止最广泛的机器可读冠状病毒文献集合”。

美国国家科学院、工程院和医学院与世界卫生组织 (WHO) 合作制定“高度优先”的问题。 这些问题围绕着冠状病毒与遗传学、潜伏期、治疗、症状和预防之间的关系。 

数据库中存在的一些研究是从 medRxiv 和 bioRxiv 等资源中提取的发表前研究。 这些是开放获取档案。 

科里·巴格曼 (Cori Bargmann) 是陈·扎克伯格倡议的科学负责人。

巴格曼说:“科学界和医学界共享重要信息是提高我们应对冠状病毒大流行能力的关键。” 

根据白宫发布的行动呼吁,该数据库集合是通过使用微软的网络规模文献管理工具开发的,该工具识别并汇集了来自全球各地的不同科学工作。 陈·扎克伯格计划提供了对出版前内容的访问,国家医学图书馆提供了对文献内容的访问,艾伦人工智能团队对内容进行了格式化以便于分析。 

Eric Horvitz 博士是微软首席科学官。 

霍维茨说:“我们正在全力应对新冠肺炎 (COVID-19) 大流行。” “我们需要企业、政府和科学家齐心协力,努力将我们最好的技术应用于生物医学、流行病学、人工智能和其他科学领域。 COVID-19 文献资源和挑战将激发人们的努力,加速找到针对 COVID-19 的解决方案。”

许多人希望这种方法能够发挥作用,并为未来利用人工智能技术和机器学习提供一种新方法。其中之一是杜威·默迪克博士,他是乔治城大学安全与新兴技术中心的数据科学主任。默迪克博士帮助协调该项目。

“这一宝贵的新资源是无私合作的成果,现在提供了寻找有关 COVID-19 的重要问题答案的机会,”Murdick 博士说。 “一旦危机过去,我们希望这个项目能够激发利用机器学习推进科学研究的新方法。”

如果这个项目成功地证明了有关冠状病毒的急需答案,那么它可以在未来用作模型。 人工智能技术是一种强大的工具,它可以比人类更快地分析全球专家和机构的结果。 这意味着每当流行病或其他危机爆发时,我们都能做出更快的反应,这可以挽救许多生命并防止经济动荡。

 

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。