Connect with us

Jeu de données ouvert sur le Covid-19 publié pour l’apprentissage automatique

Intelligence artificielle

Jeu de données ouvert sur le Covid-19 publié pour l’apprentissage automatique

mm

Le Bureau de la politique scientifique et technologique de la Maison Blanche demande aux chercheurs d’analyser des milliers d’articles universitaires avec la technologie d’intelligence artificielle (IA). Tous les articles, qui s’élèvent à environ 29 000, pourraient fournir des réponses à des questions sur le coronavirus. Environ 13 000 des articles de la base de données sont dans leur intégralité et sont lisibles par machine. En ce qui concerne les 16 000 autres articles, la base de données contient du texte partiel et des résumés.

Au cours des derniers jours, les responsables du gouvernement américain ont travaillé avec des entreprises technologiques américaines et des institutions de recherche pour obtenir l’autorisation légale de rendre les documents sur le coronavirus disponibles.

L’ensemble de données ouvertes est connu sous le nom de COVID-19 Open Research Dataset, ou CORD-19. Il ajoutera constamment de nouvelles informations dans un hub centralisé, fournissant aux chercheurs et à d’autres une seule place pour y accéder.

Le partenariat annoncé par la Maison Blanche comprend l’initiative Chan Zuckerberg, Microsoft Research, l’Institut Allen pour l’intelligence artificielle, la bibliothèque nationale de médecine des National Institutes of Health, le Centre pour la sécurité et la technologie émergente de l’Université de Georgetown, le laboratoire Cold Spring Harbor et la plate-forme d’intelligence artificielle Kaggle, qui appartient à Google.

Selon le CTO américain Michael Kratsios, l’ensemble de données CORD-19 est la « collection la plus complète de littérature sur le coronavirus lisible par machine à ce jour ».

L’Académie nationale des sciences, de l’ingénierie et de la médecine a travaillé avec l’Organisation mondiale de la santé (OMS) pour élaborer des questions « à haute priorité ». Ces questions portent sur la relation entre le coronavirus et la génétique, l’incubation, le traitement, les symptômes et la prévention.

Certaines des recherches présentes dans la base de données sont des recherches prépublication tirées de ressources telles que medRxiv et bioRxiv. Ce sont des archives en accès libre.

Cori Bargmann est la responsable de la science de l’initiative Chan Zuckerberg.

« Le partage d’informations vitales au sein des communautés scientifiques et médicales est essentiel pour accélérer notre capacité à répondre à la pandémie de coronavirus », a déclaré Bargmann.

Selon l’appel à l’action publié par la Maison Blanche, la collection de la base de données a été développée à l’aide des outils de curation de la littérature à grande échelle de Microsoft, qui ont identifié et rassemblé différents travaux scientifiques du monde entier. L’initiative Chan Zuckerberg a fourni l’accès au contenu prépublication, la bibliothèque nationale de médecine a fourni l’accès au contenu de la littérature, et l’équipe Allen AI a formaté le contenu de sorte qu’il puisse être analysé.

Le Dr Eric Horvitz est le directeur scientifique de Microsoft.

« C’est tous aux postes que nous affrontons la pandémie de COVID-19 », a déclaré Horvitz. « Nous devons nous unir en tant qu’entreprises, gouvernements et scientifiques et travailler pour mettre nos meilleures technologies à contribution dans les domaines de la biomedecine, de l’épidémiologie, de l’IA et d’autres sciences. La ressource et le défi de la littérature sur le COVID-19 stimuleront les efforts qui peuvent accélérer le chemin vers les solutions sur le COVID-19 ».

Beaucoup espèrent que cette approche fonctionne et fournit une nouvelle façon d’utiliser la technologie d’IA et l’apprentissage automatique à l’avenir. L’un de ces gens est le Dr Dewey Murdick, directeur de la science des données au Centre pour la sécurité et la technologie émergente de l’Université de Georgetown. Le Dr Murdick a aidé à coordonner le projet.

« Cette ressource précieuse est le fruit d’une collaboration désintéressée et offre maintenant l’opportunité de trouver des réponses à des questions importantes sur le COVID-19 », a déclaré le Dr Murdick. « Une fois la crise passée, nous espérons que ce projet inspirera de nouvelles façons d’utiliser l’apprentissage automatique pour faire progresser la recherche scientifique ».

Si ce projet réussit à prouver des réponses nécessaires sur le coronavirus, il pourrait être utilisé comme modèle à l’avenir. La technologie d’IA est un outil puissant, et elle peut analyser les résultats d’experts et d’institutions du monde entier beaucoup plus rapidement que les humains. Cela signifie un temps de réponse plus rapide chaque fois qu’une pandémie ou une autre crise se déclare, ce qui pourrait sauver de nombreuses vies et prévenir des troubles économiques.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.