peň Peter Staar, vedecký pracovník IBM, súbor údajov otvoreného výskumu COVID-19 – séria rozhovorov – Unite.AI
Spojte sa s nami

rozhovory

Peter Staar, vedecký pracovník IBM, súbor údajov otvoreného výskumu COVID-19 – séria rozhovorov

mm
Aktualizované on

Vedec IBM Peter Staar vyvinul a nástroj AI ktorý používa viac ako 300 odborníkov, ktorí vyvíjajú liečbu alebo očkovanie proti COVID-19.

S cieľom pomôcť výskumníkom rýchlo získať prístup k štruktúrovaným a neštruktúrovaným údajom ponúka IBM cloudový výskumný zdroj AI, ktorý bol vyškolený na súbore tisícok viac ako 45,000 19 vedeckých prác obsiahnutých v súbore COVID-19 Open Research Dataset (CORD-XNUMX). pripravené Bielym domom a koalíciou výskumných skupín a licencované databázy od DrugBank, Clinicaltrials.gov a GenBank.

Dr. Peter Staar nastúpil do IBM Research – Zurich Laboratory v júli 2015 ako postdoktorandský výskumný pracovník v projekte Foundations of Cognitive Solutions. Tento vedec narodený v Belgicku prvýkrát prišiel do IBM Research ako letný študent v roku 2006.

Prvýkrát ste nastúpili do IBM Research – Zurich Laboratory v júli 2015. Na akých typoch projektov ste v IBM pracovali?

Môj počiatočný výskum sa zameral na aplikácie pre vysokovýkonné počítače a bol som súčasťou víťazného tímu pre prestížne ocenenie ACM Gordon Bell.

Nedávno okolo roku 2017 som sa začal zameriavať na AI a v auguste 2018 môj tím publikoval na konferencii ACM Conference on Knowledge Discovery and Data Mining (KDD 2018) článok o masívne škálovateľnom systéme prijímania dokumentov, ktorý sme nazvali Corpus Conversion Service. Tento cloudový nástroj založený na AI dokázal spracovať 100,000 97 stránok PDF za deň (dokonca aj naskenovaných dokumentov) s presnosťou nad 19 percent – ​​a potom trénovať a aplikovať pokročilé modely strojového učenia, ktoré extrahujú obsah z týchto dokumentov v takom rozsahu, aký sa predtým nedosiahol. Teraz používame rovnakú technológiu na pomoc výskumníkom s COVID-XNUMX.

Kedy sa IBM prvýkrát stretlo s myšlienkou použitia Služba konverzie korpusu na boj s epidémiou COVID-19?

V polovici marca sa Biely dom snažil zverejniť viac ako 45,000 19 dokumentov o koronavíruse a COVID-XNUMX. Keď sme uvideli korpus, rýchlo sme si uvedomili, že naša technológia môže pomôcť nielen pri vyhľadávaní v súboroch PDF, ale aj pri skombinovaní znalostí v rámci týchto súborov PDF s ďalšími súbormi údajov, ako je napr. Drugbank, GenBank a klinické skúšky.gov. Službu sme spustili naživo 3. apríla.

Ako by ste najlepšie opísali, čo je služba Corpus Conversion Service?

Rovnako ako pri akomkoľvek veľkom objeme rôznych zdrojov údajov je ťažké efektívne agregovať a analyzovať tieto údaje spôsobmi, ktoré môžu poskytnúť vedecké poznatky. Uľahčíme to pomocou znalostného grafu, ktorý nájde prepojenia medzi týmito zdrojmi údajov, aby potenciálne priniesol nové poznatky.

Môžete diskutovať o hlavnej výzve extrahovania údajov z formátu PDF do formy s možnosťou vyhľadávania?

Podľa Adobe je v súčasnosti v obehu približne 2.5 bilióna súborov vo formáte Portable Document Format (PDF). Zamyslite sa nad tým, aké poznatky tieto súbory obsahujú: vedecké články, technická literatúra a oveľa viac. Všetok tento obsah je však „tmavý“ alebo nepoužitý, pretože doteraz sme nemali spôsob, ako spracovať veľké množstvo súborov PDF vo veľkom rozsahu a sprístupniť ich obsah (alebo štruktúrovať).

Súbory PDF často obsahujú kombinácie vektorovej grafiky, textu a bitmapovej grafiky, vďaka čomu je extrakcia kvalitatívnych a kvantitatívnych údajov pomerne náročná. V skutočnosti je konverzia automatickej rekonštrukcie obsahu problémom už viac ako desať rokov. Aj keď je k dispozícii veľa riešení na konverziu dokumentov, žiadne z nich nerieši škálovateľnosť ani nepoužíva AI, čo znamená, že sa musia spoliehať na nákladnú ľudskú údržbu a aktualizáciu.

Podľa našich najlepších vedomostí je služba Corpus Conversion Service prvým komplexným systémom, ktorý využíva pokročilú AI na tejto úrovni škálovateľnosti. Zatiaľ čo existujúce riešenia dokážu naraz konvertovať iba jeden dokument na požadovaný výstupný formát, náš nástroj dokáže prebrať celé kolekcie, korpus dokumentov a navyše zostaviť strojovo naučené modely.

Ako extrahujete nielen text, ktorý je obsiahnutý v dokumente, ale aj štruktúru?

Kľúčovým prvkom je, že sme navrhli interakciu človek-počítač v systéme, aby sme umožnili veľmi rýchle a masívne anotácie bez akýchkoľvek znalostí informatiky. Tento prechod na strojové učenie poskytuje našej službe veľkú flexibilitu, pretože sa dokáže rýchlo prispôsobiť určitým šablónam dokumentov, dosiahnuť vysoko presné výsledky a v konečnom dôsledku eliminovať nákladné a časovo náročné ladenie typické pre tradičné algoritmy založené na pravidlách.

Môžete diskutovať o výzvach vytvárania modelu strojového učenia, ktorý dokáže škálovať a rýchlo reagovať na stovky a dokonca potenciálne tisíce súbežných používateľov?

Vyvinuli sme službu Corpus Conversion Service nad najmodernejšími cloudovými službami, ako je napríklad OpenShift na IBM Cloud. To nám umožňuje bez námahy škálovať našu aplikáciu so zvýšeným dopytom. Modely AI, ktoré aplikujeme, preto môže používať veľa používateľov súčasne.

Koľko dokumentov bolo prijatých do služby?

Nástroje používa niekoľko priemyselných klientov, takže nevieme, koľko dokumentov prijali, pretože každý z nich má svoju vlastnú inštanciu IBM Cloud. Ale pre COVID-19 sme prehltli všetkých 45,826 XNUMX dokumentov z Bieleho domu.

Ako reagovala výskumná komunita na používanie tohto nástroja AI?

Odkedy sme pred niekoľkými týždňami oznámili bezplatnú dostupnosť nášho nástroja, máme viac ako 400 používateľov z viac ako tuctu krajín, z ktorých väčšina sú lekári a profesori.

Je ešte niečo, o čo by ste sa chceli podeliť o službe Corpus Conversion Service a/alebo o tom, ako sa používa v kontexte COVID-19?

Jedným z našich klientov je talianska energetická firma Eni, ktorá využíva našu technológiu na prieskum uhľovodíkov, čo je komplexný a znalostne náročný biznis, ktorý zahŕňa spoluprácu rôznych inžinierskych a vedeckých disciplín.

V Eni sú poznatky založené na spracovaní veľkého množstva geologických, fyzikálnych a geochemických údajov, ktoré sú následne spracované do znalostného grafu. Geovedci potom môžu použiť AI na kontextualizáciu a prezentáciu relevantných informácií, čo im pomôže zlepšiť rozhodovanie a identifikáciu a overenie možných alternatívnych scenárov prieskumu. Presnejšie povedané, pre Eni to znamená realistickejšie a presnejšie znázornenie geologického modelu.

Ďakujem vám za tento veľmi dôležitý rozhovor, výskumníkom to ušetrí nespočetné hodiny. Čitatelia, ktorí sa chcú dozvedieť viac o technológii, by mali navštíviť stránku Služba konverzie korpusu webovej stránky. Výskumníci by mali navštíviť Nástroj AI COVID-19 stránku. Upozorňujeme, že prístup k tomuto zdroju bude udelený iba kvalifikovaným výskumníkom.