Interviu

Peteris Staaras, IBM mokslininkas, COVID-19 atvirųjų tyrimų duomenų rinkinys – interviu serija

Atnaujinta on Gruodis 9, 2022

IBM mokslininkas Peteris Staaras sukūrė AI įrankis kurį naudoja daugiau nei 300 ekspertų, kuriančių gydymą ar skiepijimą nuo COVID-19.

Siekdama padėti tyrėjams greitai pasiekti struktūrizuotus ir nestruktūrizuotus duomenis, IBM siūlo debesyje pagrįstą AI tyrimų šaltinį, kuris buvo parengtas remiantis tūkstančiais daugiau nei 45,000 19 mokslinių straipsnių, esančių COVID-19 atvirųjų tyrimų duomenų rinkinyje (CORD-XNUMX). parengė Baltieji rūmai ir tyrimų grupių koalicija bei licencijuotos duomenų bazės iš DrugBank, Clinicaltrials.gov ir GenBank.

Dr. Peter Staar prisijungė prie IBM tyrimų – Ciuricho laboratorijos 2015 m. liepos mėn. kaip mokslinis bendradarbis podoktorantūros projekte „Pažinimo sprendimų pagrindai“. Belgijoje gimęs mokslininkas pirmą kartą atvyko į IBM tyrimų kaip vasaros studentas 2006 m.

Pirmą kartą prisijungėte prie IBM tyrimų – Ciuricho laboratorijos 2015 m. liepos mėn. Su kokio tipo projektais dirbote IBM?

Mano pradinis tyrimas buvo sutelktas į didelio našumo skaičiavimo programas ir priklausiau laimėjusiai komandai, kuri laimėjo prestižinį ACM Gordon Bell apdovanojimą.

Visai neseniai, maždaug 2017 m., pradėjau sutelkti dėmesį į DI, o 2018 m. rugpjūčio mėn. mano komanda paskelbė pranešimą ACM konferencijoje apie žinių atradimą ir duomenų gavybą (KDD 2018) apie labai keičiamą dokumentų gavimo sistemą, kurią pavadinome Corpus Conversion Service. Šis dirbtiniu intelektu pagrįstas debesies įrankis sugebėjo per dieną gauti 100,000 97 PDF puslapių (net nuskaitytų dokumentų) didesniu nei 19 procentų tikslumu, o tada išmokyti ir pritaikyti pažangius mašininio mokymosi modelius, kurie ištraukia turinį iš šių dokumentų tokiu mastu, kokio anksčiau nebuvo pasiekta. Dabar taikome tą pačią technologiją, kad padėtume mokslininkams, sergantiems COVID-XNUMX.

Kada IBM pirmą kartą susidūrė su idėja naudoti Korpuso konvertavimo paslauga kovoti su COVID-19 epidemija?

Kovo viduryje Baltieji rūmai pradėjo pastangas paskelbti daugiau nei 45,000 19 dokumentų apie koronavirusą ir COVID-XNUMX. Kai pamatėme korpusą, greitai supratome, kad mūsų technologija gali padėti ne tik padaryti PDF failus, kad būtų galima ieškoti, bet ir sujungti žinias tuose PDF rinkiniuose su papildomais duomenų rinkiniais, pvz. Narkotikų bankas, GenBank ir klinikiniai tyrimai.gov. Mes pradėjome tiesiogiai naudotis paslauga balandžio 3 d.

Kaip geriausiai apibūdintumėte, kas yra korpuso konversijos paslauga?

Kaip ir su bet kokiu dideliu skirtingų duomenų šaltinių kiekiu, sunku efektyviai apibendrinti ir analizuoti tuos duomenis taip, kad būtų galima gauti mokslinių įžvalgų. Tai palengviname naudodami žinių diagramą, kuri randa ryšius tarp šių duomenų šaltinių, kad būtų galima gauti naujų žinių.

Ar galite aptarti pagrindinį duomenų ištraukimo iš PDF formato į paieškos formą iššūkį?

„Adobe“ duomenimis, šiuo metu apyvartoje yra maždaug 2.5 trilijono PDF formato (Portable Document Format) failų. Pagalvokite apie žinias, kurias turi šie failai: moksliniai straipsniai, techninė literatūra ir daug daugiau. Tačiau visas tas turinys yra „tamsus“ arba nenaudojamas, nes iki šiol neturėjome būdo dideliais kiekiais perimti daug PDF failų ir padaryti jų turinį tinkamu naudoti (arba struktūrizuotu).

PDF failuose dažnai yra vektorinės grafikos, teksto ir taškinės grafikos derinių, dėl kurių kokybinių ir kiekybinių duomenų gavimas yra gana sudėtingas. Tiesą sakant, automatinio turinio atkūrimo konvertavimas buvo problema daugiau nei dešimtmetį. Nors yra daug dokumentų konvertavimo sprendimų, nė vienas iš jų nesusijęs su mastelio keitimu ir netaikomas AI, o tai reiškia, kad jiems reikia pasikliauti brangia žmogaus atliekama priežiūra ir atnaujinimu.

Mūsų žiniomis, „Corpus Conversion Service“ yra pirmoji visapusė sistema, kurioje naudojamas pažangus AI tokiu mastelio keitimo lygiu. Nors esami sprendimai vienu metu gali konvertuoti tik vieną dokumentą į norimą išvesties formatą, mūsų įrankis gali gauti ištisas kolekcijas, dokumentų korpusą ir kurti mašininius modelius.

Kaip išgauti ne tik dokumente esantį tekstą, bet ir struktūrą?

Pagrindinis elementas yra tai, kad mes sukūrėme žmogaus ir kompiuterio sąveiką sistemoje taip, kad būtų galima labai greitai ir masiškai komentuoti be jokių informatikos žinių. Šis pakeitimas mašininiu mokymusi suteikia mūsų paslaugai daug lankstumo, nes ji gali greitai prisitaikyti prie tam tikrų dokumentų šablonų, pasiekti labai tikslių rezultatų ir galiausiai pašalinti brangų ir daug laiko reikalaujantį derinimą, būdingą tradiciniams taisyklėmis pagrįstiems algoritmams.

Ar galite aptarti iššūkius kuriant mašininio mokymosi modelį, kuris galėtų greitai prisitaikyti prie šimtų ir net potencialiai tūkstančių vienu metu dirbančių vartotojų?

Sukūrėme „Corpus Conversion Service“ kartu su naujausiomis debesies paslaugomis, tokiomis kaip „OpenShift“ „IBM Cloud“. Tai leidžia mums lengvai išplėsti savo taikomąją programą, atsižvelgiant į didėjančią paklausą. Todėl mūsų taikomus AI modelius vienu metu gali naudoti daug vartotojų.

Kiek dokumentų buvo įtraukta į paslaugą?

Turime keletą pramoninių klientų, naudojančių įrankius, todėl nežinome, kiek dokumentų jie gavo, nes kiekvienas turi savo IBM Cloud egzempliorių. Tačiau dėl COVID-19 gavome visus 45,826 XNUMX dokumentus iš Baltųjų rūmų.

Kaip mokslininkų bendruomenė reagavo į šio AI įrankio naudojimą?

Nuo tada, kai prieš kelias savaites paskelbėme apie nemokamą mūsų įrankio prieinamumą, turime daugiau nei 400 vartotojų iš daugiau nei tuzino šalių, kurių dauguma yra gydytojai ir profesoriai.

Ar dar ko nors norėtumėte pasidalinti apie „Corpus Conversion Service“ ir (arba) kaip ji naudojama COVID-19 kontekste?

Viena iš mūsų klientų yra Italijos energetikos įmonė „Eni“, kuri naudoja mūsų technologiją angliavandenilių tyrimams, o tai yra sudėtingas ir daug žinioms reikalingas verslas, apimantis įvairių inžinerinių ir mokslo sričių bendradarbiavimą.

„Eni“ žinios pagrįstos didelio kiekio geologinių, fizikinių ir geocheminių duomenų apdorojimu, kurie vėliau apdorojami į žinių grafiką. Tada geomokslininkai gali naudoti AI kontekstualizuoti ir pateikti svarbią informaciją, kuri padės jiems geriau priimti sprendimus ir nustatyti bei patikrinti galimus alternatyvius tyrinėjimo scenarijus. Tiksliau, Eni tai reiškia tikroviškesnį ir tikslesnį geologinio modelio vaizdą.

Dėkojame už šį labai svarbų interviu, tai sutaupys tyrėjams daugybę valandų. Skaitytojai, norintys sužinoti daugiau apie technologiją, turėtų apsilankyti Korpuso konvertavimo paslauga Interneto svetainė. Tyrėjai turėtų apsilankyti COVID-19 AI įrankis puslapį. Atminkite, kad prieiga prie šio šaltinio bus suteikta tik kvalifikuotiems tyrėjams.