Stummel Peter Staar, IBM-Wissenschaftler, COVID-19 Open Research Dataset – Interviewreihe – Unite.AI
Vernetzen Sie sich mit uns

Interviews

Peter Staar, IBM-Wissenschaftler, COVID-19 Open Research Dataset – Interviewreihe

mm
Aktualisiert on

Der IBM-Wissenschaftler Peter Staar hat eine entwickelt KI-Tool das von mehr als 300 Experten genutzt wird, die eine Behandlung oder Impfung gegen COVID-19 entwickeln.

Um Forschern den schnellen Zugriff auf strukturierte und unstrukturierte Daten zu erleichtern, bietet IBM eine cloudbasierte KI-Forschungsressource an, die auf einem Korpus von Tausenden von mehr als 45,000 wissenschaftlichen Arbeiten trainiert wurde, die im COVID-19 Open Research Dataset (CORD-19) enthalten sind. erstellt vom Weißen Haus und einer Koalition von Forschungsgruppen sowie lizenzierten Datenbanken von DrugBank, Clinicaltrials.gov und GenBank.

Dr. Peter Staar kam im Juli 2015 als Postdoktorand im Projekt „Foundations of Cognitive Solutions“ zum IBM Research – Zurich Laboratory. Der in Belgien geborene Wissenschaftler kam 2006 als Sommerstudent zu IBM Research.

Im Juli 2015 sind Sie erstmals dem IBM Research – Zurich Laboratory beigetreten. An welchen Arten von Projekten haben Sie bei IBM gearbeitet?

Meine anfängliche Forschung konzentrierte sich auf Anwendungen für Hochleistungsrechnen und war Teil des Gewinnerteams für den prestigeträchtigen ACM Gordon Bell Award.

In jüngerer Zeit, etwa 2017, begann ich, mich auf KI zu konzentrieren, und im August 2018 veröffentlichte mein Team auf der ACM Conference on Knowledge Discovery and Data Mining (KDD 2018) einen Artikel über ein massiv skalierbares Dokumentenerfassungssystem, das wir Corpus Conversion Service nannten. Dieses KI-basierte Cloud-Tool war in der Lage, 100,000 PDF-Seiten pro Tag (sogar gescannte Dokumente) mit einer Genauigkeit von über 97 Prozent aufzunehmen – und dann fortschrittliche Modelle für maschinelles Lernen zu trainieren und anzuwenden, die den Inhalt aus diesen Dokumenten in einem noch nie dagewesenen Umfang extrahieren. Wir wenden dieselbe Technologie jetzt an, um Forschern bei COVID-19 zu helfen.

Wann kam IBM zum ersten Mal auf die Idee, Folgendes zu verwenden? Korpuskonvertierungsdienst um die COVID-19-Epidemie zu bekämpfen?

Mitte März leitete das Weiße Haus die Veröffentlichung von mehr als 45,000 Dokumenten zum Coronavirus und COVID-19 ein. Als wir das Korpus sahen, wurde uns schnell klar, dass unsere Technologie nicht nur dabei helfen könnte, die PDFs durchsuchbar zu machen, sondern auch das Wissen in diesen PDFs mit zusätzlichen Datensätzen zu kombinieren Drogenbank, GenBank und klinische Studien.gov. Wir haben den Dienst am 3. April in Betrieb genommen.

Wie würden Sie den Corpus Conversion Service am besten beschreiben?

Wie bei jeder großen Menge unterschiedlicher Datenquellen ist es schwierig, diese Daten effizient zu aggregieren und zu analysieren, sodass wissenschaftliche Erkenntnisse gewonnen werden können. Wir machen dies einfacher, indem wir einen Wissensgraphen verwenden, der Verbindungen zwischen diesen Datenquellen findet, um möglicherweise neues Wissen zu gewinnen.

Können Sie die größte Herausforderung beim Extrahieren von Daten aus dem PDF-Format in eine durchsuchbare Form erläutern?

Laut Adobe sind derzeit rund 2.5 Billionen PDF-Dateien (Portable Document Format) im Umlauf. Denken Sie an das Wissen, das diese Dateien enthalten: wissenschaftliche Artikel, technische Literatur und vieles mehr. Aber all diese Inhalte sind „dunkel“ oder ungenutzt, da wir bisher keine Möglichkeit hatten, eine große Anzahl von PDF-Dateien in großem Maßstab aufzunehmen und ihren Inhalt nutzbar (oder strukturiert) zu machen.

PDF-Dateien enthalten häufig Kombinationen aus Vektorgrafiken, Text und Bitmap-Grafiken, was die Extraktion qualitativer und quantitativer Daten zu einer großen Herausforderung macht. Tatsächlich ist die Konvertierung der automatischen Inhaltsrekonstruktion seit über einem Jahrzehnt ein Problem. Obwohl viele Lösungen zur Dokumentenkonvertierung verfügbar sind, berücksichtigt keine von ihnen die Skalierbarkeit oder wendet KI an, was bedeutet, dass sie auf teure, von Menschen durchgeführte Wartung und Aktualisierung angewiesen sind.

Nach unserem besten Wissen ist der Corpus Conversion Service das erste umfassende System, das fortschrittliche KI auf dieser Skalierbarkeitsstufe nutzt. Während bestehende Lösungen jeweils nur ein Dokument in ein gewünschtes Ausgabeformat konvertieren können, kann unser Tool ganze Sammlungen oder einen Dokumentenkorpus aufnehmen und darüber maschinell erlernte Modelle erstellen.

Wie extrahiert man nicht nur den in einem Dokument enthaltenen Text, sondern auch die Struktur?

Ein Schlüsselelement ist, dass wir die Mensch-Computer-Interaktion im System so gestaltet haben, dass eine sehr schnelle und umfangreiche Annotation ohne Informatikkenntnisse möglich ist. Dieser Wechsel zu maschinellem Lernen verleiht unserem Service ein hohes Maß an Flexibilität, da er sich schnell an bestimmte Dokumentvorlagen anpassen kann, hochpräzise Ergebnisse erzielt und letztendlich die kostspielige und zeitaufwändige Optimierung herkömmlicher regelbasierter Algorithmen überflüssig macht.

Können Sie die Herausforderungen beim Aufbau eines Modells für maschinelles Lernen erläutern, das schnell skaliert werden kann und auf Hunderte oder sogar Tausende gleichzeitiger Benutzer reagiert?

Wir haben den Corpus Conversion Service auf der Grundlage modernster Cloud-Dienste wie OpenShift in der IBM Cloud entwickelt. Dadurch können wir unsere Anwendung bei steigender Nachfrage mühelos skalieren. Die von uns eingesetzten KI-Modelle können daher von vielen Nutzern gleichzeitig genutzt werden.

Wie viele Dokumente wurden in den Dienst aufgenommen?

Wir haben mehrere Industriekunden, die die Tools nutzen, daher wissen wir nicht, wie viele Dokumente sie aufgenommen haben, da jeder über eine eigene IBM Cloud-Instanz verfügt. Aber für COVID-19 haben wir alle 45,826 Papiere des Weißen Hauses aufgenommen.

Wie hat die Forschungsgemeinschaft auf den Einsatz dieses KI-Tools reagiert?

Seit wir vor einigen Wochen die kostenlose Verfügbarkeit unseres Tools angekündigt haben, haben wir mehr als 400 Benutzer aus über einem Dutzend Ländern, die meisten davon Ärzte und Professoren.

Gibt es noch etwas, das Sie über den Corpus Conversion Service und/oder dessen Nutzung im Kontext von COVID-19 mitteilen möchten?

Einer unserer Kunden ist das italienische Energieunternehmen Eni, das unsere Technologie für die Exploration von Kohlenwasserstoffen nutzt. Dabei handelt es sich um ein komplexes und wissensintensives Geschäft, bei dem verschiedene technische und wissenschaftliche Disziplinen zusammenarbeiten.

Bei Eni basiert das Wissen auf der Verarbeitung großer Mengen geologischer, physikalischer und geochemischer Daten, die dann zu einem Wissensgraphen verarbeitet werden. Geowissenschaftler können dann mithilfe von KI relevante Informationen kontextualisieren und präsentieren, was ihnen dabei hilft, die Entscheidungsfindung sowie die Identifizierung und Überprüfung möglicher alternativer Explorationsszenarien zu verbessern. Konkret bedeutet dies für Eni eine realistischere und präzisere Darstellung des geologischen Modells.

Vielen Dank für dieses sehr wichtige Interview, das den Forschern unzählige Stunden ersparen wird. Leser, die mehr über die Technologie erfahren möchten, sollten die besuchen Korpuskonvertierungsdienst Webseite. Forscher sollten die besuchen COVID-19-KI-Tool Buchseite. Bitte beachten Sie, dass der Zugriff auf diese Ressource nur qualifizierten Forschern gewährt wird. 

Ein Gründungspartner von unite.AI und Mitglied der Forbes Technology Council, Antoine ist ein Futurist der sich leidenschaftlich für die Zukunft von KI und Robotik interessiert.

Er ist auch der Gründer von Wertpapiere.io, eine Website, die sich auf Investitionen in bahnbrechende Technologien konzentriert.