stomp Peter Staar, IBM-wetenschapper, COVID-19 Open Research Dataset - Interviewreeks - Unite.AI
Verbind je met ons

Interviews

Peter Staar, IBM-wetenschapper, COVID-19 Open Research Dataset - Interviewreeks

mm
Bijgewerkt on

IBM-wetenschapper Peter Staar heeft een AI-tool die wordt gebruikt door meer dan 300 experts die een behandeling of vaccinatie voor COVID-19 ontwikkelen.

Om onderzoekers te helpen snel toegang te krijgen tot gestructureerde en ongestructureerde gegevens, biedt IBM een cloudgebaseerde AI-onderzoeksbron aan die is getraind op een corpus van duizenden van ruim 45,000 wetenschappelijke artikelen in de COVID-19 Open Research Dataset (CORD-19). opgesteld door het Witte Huis en een coalitie van onderzoeksgroepen, en gelicentieerde databases van de DrugBank, Clinicaltrials.gov en GenBank.

Dr. Peter Staar trad in juli 2015 in dienst bij het IBM Research – Zurich Laboratory als postdoctoraal onderzoeker in het Foundations of Cognitive Solutions-project. De in België geboren wetenschapper kwam in 2006 voor het eerst naar IBM Research als zomerstudent.

Je kwam in juli 2015 voor het eerst bij het IBM Research – Zurich Laboratory. Aan wat voor soort projecten heb je bij IBM gewerkt?

Mijn eerste onderzoek was gericht op toepassingen voor high performance computing en maakte deel uit van het winnende team voor de prestigieuze ACM Gordon Bell-prijs.

Meer recentelijk rond 2017 begon ik me te concentreren op AI en in augustus 2018 publiceerde mijn team een ​​paper op de ACM Conference on Knowledge Discovery and Data Mining (KDD 2018) over een enorm schaalbaar documentopnamesysteem, dat we de Corpus Conversion Service noemden. Deze op AI gebaseerde cloudtool kon 100,000 PDF-pagina’s per dag verwerken (zelfs van gescande documenten) met een nauwkeurigheid van meer dan 97 procent – ​​en vervolgens geavanceerde machine learning-modellen trainen en toepassen die de inhoud uit deze documenten halen op een schaal die nog nooit eerder is bereikt. Diezelfde technologie passen we nu toe om onderzoekers met COVID-19 te helpen.

Wanneer kwam IBM voor het eerst op het idee om te gebruiken Corpus-conversieservice om de COVID-19-epidemie aan te pakken?

Half maart leidde het Witte Huis een poging om meer dan 45,000 documenten over het coronavirus en COVID-19 te publiceren. Toen we het corpus zagen, realiseerden we ons al snel dat onze technologie zou kunnen helpen, niet alleen om de pdf's doorzoekbaar te maken, maar ook om de kennis in die pdf's te combineren met aanvullende datasets zoals Drugsbank, GenBank en clinicaltrials.gov. Op 3 april zijn we live gegaan met de dienst.

Hoe zou je het best omschrijven wat de Corpus Conversion Service is?

Zoals met elke grote hoeveelheid ongelijksoortige gegevensbronnen, is het moeilijk om die gegevens efficiënt te aggregeren en te analyseren op een manier die wetenschappelijke inzichten kan opleveren. We maken dit makkelijker met een kennisgrafiek die verbanden legt tussen deze databronnen om mogelijk nieuwe kennis op te leveren.

Kunt u de belangrijkste uitdaging bespreken van het extraheren van gegevens uit PDF-indeling in een doorzoekbare vorm?

Volgens Adobe zijn er momenteel ongeveer 2.5 biljoen PDF-bestanden (Portable Document Format) in omloop. Denk aan de kennis die deze dossiers bevatten: wetenschappelijke artikelen, technische literatuur en nog veel meer. Maar al die inhoud is "donker" of ongebruikt, omdat we tot nu toe geen manier hadden om grote aantallen pdf-bestanden op grote schaal op te nemen en hun inhoud bruikbaar (of gestructureerd) te maken.

PDF-bestanden bevatten vaak combinaties van vectorafbeeldingen, tekst en bitmapafbeeldingen, waardoor het extraheren van kwalitatieve en kwantitatieve gegevens behoorlijk uitdagend is. In feite is het converteren van automatische inhoudsreconstructie al meer dan tien jaar een probleem. Hoewel er veel oplossingen voor documentconversie beschikbaar zijn, biedt geen enkele oplossing voor schaalbaarheid of past AI toe, wat betekent dat ze afhankelijk zijn van duur onderhoud en upgrades door mensen.

Voor zover wij weten, is de Corpus Conversion Service het eerste uitgebreide systeem dat gebruikmaakt van geavanceerde AI op dit niveau van schaalbaarheid. Hoewel bestaande oplossingen slechts één document tegelijk naar een gewenst uitvoerformaat kunnen converteren, kan onze tool hele collecties, een corpus aan documenten opnemen en daarbovenop machine-geleerde modellen bouwen.

Hoe extraheer je niet alleen de tekst die in een document staat, maar ook de structuur?

Een belangrijk element is dat we de interactie tussen mens en computer in het systeem hebben ontworpen om zeer snelle en massale annotaties mogelijk te maken zonder enige kennis van informatica. Deze overstap naar machine learning geeft onze service veel flexibiliteit, omdat het zich snel kan aanpassen aan bepaalde sjablonen van documenten, zeer nauwkeurige resultaten kan behalen en uiteindelijk de kostbare en tijdrovende afstemming kan elimineren die typisch is voor traditionele op regels gebaseerde algoritmen.

Kun je de uitdagingen bespreken van het bouwen van een machine learning-model dat kan worden geschaald en snel kan reageren op honderden en zelfs mogelijk duizenden gelijktijdige gebruikers?

We hebben de Corpus Conversion Service ontwikkeld bovenop state-of-the-art clouddiensten, zoals OpenShift op IBM Cloud. Hierdoor kunnen we onze applicatie moeiteloos schalen met een grotere vraag. De AI-modellen die wij toepassen kunnen daardoor door veel gebruikers tegelijk worden gebruikt.

Hoeveel documenten zijn opgenomen in de service?

We hebben verschillende industriële klanten die de tools gebruiken, dus we weten niet hoeveel documenten ze hebben opgenomen, aangezien ze elk hun eigen IBM Cloud-instance hebben. Maar voor COVID-19 hebben we alle 45,826 papieren van het Witte Huis ingenomen.

Hoe heeft de onderzoeksgemeenschap gereageerd op het gebruik van deze AI-tool?

Sinds we enkele weken geleden de gratis beschikbaarheid van onze tool aankondigden, hebben we meer dan 400 gebruikers uit meer dan een dozijn landen, de meesten van hen artsen en professoren.

Is er nog iets dat u zou willen delen over de Corpus Conversion Service en/of hoe deze wordt gebruikt in de context van COVID-19?

Een van onze klanten is het Italiaanse energiebedrijf Eni, dat onze technologie gebruikt voor de exploratie van koolwaterstoffen, een complexe en kennisintensieve onderneming waarbij verschillende technische en wetenschappelijke disciplines samenwerken.

Bij Eni is de kennis gebaseerd op het verwerken van grote hoeveelheden geologische, fysische en geochemische gegevens, die vervolgens worden verwerkt tot een kennisgrafiek. Geowetenschappers kunnen vervolgens AI gebruiken om relevante informatie in een context te plaatsen en te presenteren, wat hen zal helpen de besluitvorming en de identificatie en verificatie van mogelijke alternatieve verkenningsscenario's te verbeteren. Meer specifiek betekent dit voor Eni een meer realistische en precieze weergave van het geologische model.

Bedankt voor dit zeer belangrijke interview, dit bespaart onderzoekers onnoemelijke uren. Lezers die meer over de technologie willen leren, moeten de Corpus-conversieservice website. Onderzoekers zouden de COVID-19 AI-tool bladzijde. Houd er rekening mee dat toegang tot deze bron alleen wordt verleend aan gekwalificeerde onderzoekers. 

Een van de oprichters van unite.AI en lid van de Forbes Technologieraad, Antoine is een futuristisch die gepassioneerd is over de toekomst van AI en robotica.

Hij is tevens de oprichter van Effecten.io, een website die zich richt op het investeren in disruptieve technologie.