intervjuer

Stefano Pacifico, og David Heeger, medstiftere av Epistemic AI – Intervjuserien

oppdatert on Desember 9, 2022

Epistemisk AI bruker state-of-the-art Natural Language Processing (NLP), maskinlæring og dyplæringsalgoritmer for å kartlegge relasjoner mellom en voksende mengde biomedisinsk kunnskap, fra flere offentlige og private kilder, inkludert tekstdokumenter og databaser. Gjennom en prosess med Kunnskapskartlegging jobber brukerne interaktivt med plattformen for å kartlegge og forstå undergrupper av biomedisinsk kunnskap, som avslører konsepter og sammenhenger og som ellers savnes med tradisjonelle søk.

Vi intervjuet begge medgrunnleggerne av Epistemic AI for å diskutere disse siste fremskrittene.

Stefano Pacifico kommer fra 10+ år i anvendt AI og NLP-utvikling. Tidligere på Bloomberg, hvor han tilbrakte 7 år, og var på Elemental Cognition før han startet Epistemic.

David Heeger er sølvprofessor i datavitenskap og nevrovitenskap ved NYU, og har brukt sin karriere på å bygge bro mellom informatikk, AI og biovitenskap. Han er medlem av National Academy of Sciences. Som grunnleggere samler de ekspertisen til å bygge anvendte storskala AI- og NLP-systemer for å forstå store samlinger av kunnskap, med ekspertise innen beregningsbiologi og biomedisinsk vitenskap fra mange års forskning på området.

Hva er det som introduserte og tiltrakk deg til AI og Natural Language Processing (NLP)?

Stefano Pacifico: Da jeg gikk på college i Roma, og AI ikke var populært i det hele tatt (det var faktisk veldig utkant), spurte jeg min daværende rådgiver hvilken spesialisering jeg skulle ha tatt blant de tilgjengelige. Han sa: "Hvis du vil tjene penger, programvareteknikk og databaser, men hvis du vil være rar, men veldig avansert, så velg kunstig intelligens". Jeg ble solgt til "rar". Jeg begynte deretter å jobbe med kunnskapsrepresentasjon og resonnement for å studere hvordan autonome agenter kunne spille fotball eller redde mennesker. Så fikk to erkjennelser meg til å bli forelsket i NLP: For det første må autonome agenter kanskje kommunisere med naturlig språk seg imellom! For det andre er det vanskelig å bygge formelle kunnskapsbaser for hånd, mens naturlig språk (i tekst) allerede gir den største kunnskapsbasen av alle. Jeg vet i dag at disse kan virke åpenbare observasjoner, men de var ikke like mainstream før.

Hva var inspirasjonen bak lanseringen av Epistemic AI?

Stefano Pacifico: Jeg skal komme med en dristig påstand. Ingen har i dag tilstrekkelig verktøy for å forstå og koble kunnskapen som finnes i store, stadig voksende samlinger av dokumenter og data. Jeg hadde tidligere jobbet med det problemet i finansverdenen. Tenk på nyheter, regnskaper, prisdata, bedriftshandlinger, registreringer osv. Jeg fant det problemet berusende. Og selvfølgelig er det et vanskelig problem; og en viktig en! Da jeg møtte min medgründer, Dr. David Heeger, brukte vi ganske mye tid på å evaluere oppstartsmuligheter i den biomedisinske industrien. Da vi innså hvor mye informasjon som ble generert i dette feltet, var det som om alt falt på rett plass. Biomedisinske forskere sliter med informasjonsoverbelastning, mens de prøver å takle den enorme og raskt voksende basen av biomedisinsk kunnskap, inkludert dokumenter (f.eks. papirer, patenter, kliniske studier) og databaser (f.eks. gener, proteiner, veier, legemidler, sykdommer, medisinske termer). Dette er et stort smertepunkt for forskere, og uten noen passende løsning er de tvunget til å bruke grunnleggende søkeverktøy (PubMed og Google Scholar) og utforske manuelt kurerte databaser. Disse verktøyene er egnet for å finne dokumenter som samsvarer med nøkkelord (f.eks. et enkelt gen eller en publisert journalartikkel), men ikke for å tilegne seg omfattende kunnskap om et emneområde eller underdomene (f.eks. COVID-19), eller for å tolke resultatene av høy gjennomstrømming biologiske eksperimenter, som gensekvensering, proteinekspresjon eller screening av kjemiske forbindelser. Vi startet Epistemic AI med ideen om å løse dette problemet med en plattform som lar dem iterativt:

Kort ned tiden til å samle informasjon og bygge omfattende kunnskapskart
Overflate tverrfaglig informasjon som ellers kan være vanskelig å finne (virkelige oppdagelser kommer ofte fra å se inn i det hvite rommet mellom disipliner);
Identifiser årsakshypoteser ved å finne stier og manglende lenker i kunnskapskartet ditt.

Hva er noen av både offentlige og private kilder som brukes for å kartlegge disse relasjonene?

Stefano Pacifico: På dette tidspunktet inntar vi alle de offentlig tilgjengelige kildene vi kan få tak i, inkludert Pubmed og clinicaltrials.gov. Vi inntar databaser over gener, medisiner, sykdommer og deres interaksjoner. Vi inkluderer også private datakilder for utvalgte kunder, men vi har ikke frihet til å avsløre noen detaljer ennå.

Hvilken type maskinlæringsteknologi brukes til kunnskapskartleggingen?

Stefano Pacifico: En av de dype oppfatningene ved Epistemic AI er at iver ikke er nyttig for å bygge produkter. Å bygge en arkitektur som integrerer flere maskinlæringsteknikker var en beslutning som ble tatt tidlig, og disse spenner fra kunnskapsrepresentasjon til transformatormodeller, gjennom grafinnbygging, men inkluderer også enklere modeller som regresjoner og tilfeldige skoger. Hver komponent er så enkel som den trenger å være, men ikke enklere. Selv om vi mener å allerede ha bygget NLP-komponenter som er toppmoderne for visse oppgaver, viker vi ikke unna enklere grunnmodeller når det er mulig.

Kan du nevne noen av selskapene, ideelle organisasjonene eller akademiske institusjonene som bruker Epistemic-plattformen?

Stefano Pacifico: Selv om jeg gjerne vil, har vi ikke blitt enige med brukerne våre om å gjøre det. Jeg kan si at vi hadde folk som meldte seg på fra svært høyprofilerte institusjoner i alle tre segmentene (bedrifter, ideelle organisasjoner og akademiske institusjoner). I tillegg har vi til hensikt å holde plattformen gratis for akademiske/non-profit formål.

Hvordan hjelper Epistemic forskere med å identifisere sentralnervesystemet (CNS) og andre sykdomsspesifikke biomarkører?

Dr. David HeegerNevrovitenskap er et svært tverrfaglig felt, inkludert molekylær- og cellulærbiologi og genomikk, men også psykologi, kjemi og prinsipper for fysikk, ingeniørvitenskap og matematikk. Det er så bredt at ingen kan være eksperter i det hele tatt. Forskere ved akademiske institusjoner og farma/bioteknologiselskaper er tvunget til å spesialisere seg. Men vi vet at den viktige innsikten er tverrfaglig, og kombinerer kunnskap fra subspesialitetene. Den AI-drevne programvareplattformen som vi bygger gjør det mulig for alle å være mye mer tverrfaglige, å se sammenhengene mellom deres individuelle underområde av ekspertise og andre emner, og å identifisere nye hypoteser. Dette er spesielt viktig innen nevrovitenskap fordi det er et så høyst tverrfaglig felt til å begynne med. Funksjonen og dysfunksjonen til den menneskelige hjernen er det vanskeligste problemet som vitenskapen noen gang har møtt. Vi er på et oppdrag for å endre måten biomedisinske forskere jobber på og til og med hvordan de tenker.

Epistemic muliggjør også oppdagelsen av genetiske mekanismer for CNS-lidelser. Kan du lede oss gjennom hvordan dette fungerer?

Dr. David Heeger: De fleste nevrologiske sykdommer, psykiatriske sykdommer og utviklingsforstyrrelser har ingen enkel forklaring når det gjelder genetiske forskjeller. Det er en håndfull syndromiske lidelser der en spesifikk mutasjon er kjent for å forårsake lidelsen. Men det er vanligvis ikke tilfelle. Det er hundrevis av genetiske forskjeller, for eksempel, som har vært assosiert med autismespekterforstyrrelser (ASD). Det er en viss forståelse for noen av disse genene om funksjonene de tjener når det gjelder grunnleggende biologi. For eksempel holder noen av genene assosiert med ASD synapser sammen i hjernen (merk imidlertid at de samme genene vanligvis utfører forskjellige funksjoner i andre organsystemer i kroppen). Men det er veldig liten forståelse for hvordan disse genetiske forskjellene kan forklare den komplekse pakken av atferdsforskjeller som vises av individer med ASD. For å gjøre vondt verre, kan to individer med samme genetiske forskjell ha helt forskjellige utfall, den ene diagnostisert med ASD og den andre ikke. Og to individer med helt forskjellige genetiske profiler kan ha samme utfall med svært like atferdsmessige mangler. For å forstå alt dette krever en forbindelse fra genomikk og molekylærbiologi til cellulær nevrovitenskap (hvordan får de genetiske forskjellene individuelle nevroner til å fungere annerledes) og deretter til systemnevrovitenskap (hvordan forårsaker disse forskjellene i cellulær funksjon nettverk av et stort antall sammenkoblede nevroner å fungere annerledes) og deretter til psykologi (hvordan forårsaker disse forskjellene i nevrale nettverksfunksjoner forskjeller i kognisjon, følelser og atferd). Og alt dette må forstås fra et utviklingsperspektiv. En genetisk forskjell kan forårsake et underskudd i et bestemt aspekt av nevrale funksjon. Men hjernen sitter ikke bare der og tar den. Hjerner er svært adaptive. Hvis det er en manglende eller ødelagt mekanisme, vil hjernen utvikle seg annerledes for å kompensere så mye som mulig. Denne kompensasjonen kan være molekylær, for eksempel ved å oppregulere en annen synaptisk reseptor for å erstatte funksjonen til en ødelagt synaptisk reseptor. Eller kompensasjonen kan være atferdsmessig. Sluttresultatet avhenger ikke bare av den opprinnelige genetiske forskjellen, men også av de forskjellige forsøkene på å kompensere avhengig av andre molekylære, cellulære, kretsløp, systemer og atferdsmekanismer.

Ingen har kunnskapen til å forstå alt dette. Vi trenger alle hjelp. Den AI-drevne programvareplattformen som vi bygger gjør det mulig for alle å samle og koble all relevant biomedisinsk kunnskap, se sammenhengene og identifisere nye hypoteser.

Hvordan bruker biofarma og akademiske institusjoner Epistemic for å takle COVID-19-utfordringen?

Stefano Pacifico: Vi har gitt ut en offentlig versjon av plattformen vår som inkluderer COVID-spesifikke datasett og er fritt tilgjengelig for alle som forsker på COVID-19. Den er tilgjengelig på https://covid.epistemic.ai

Hva er noen av de andre sykdommene eller genetiske problemene som Epistemic har blitt brukt til?

Stefano Pacifico: Vi har samarbeidet med autismeforskere og setter senest sammen en ny forskningsinnsats for cystisk fibrose. Men vi samarbeider gjerne med andre forskere eller institusjoner som kan trenge hjelp til forskningen sin.

Er det noe annet du vil dele om Epistemic?

Stefano Pacifico: Vi bygger en bevegelse av mennesker som ønsker å endre måten biomedisinske forskere jobber og tenker på. Vi håper inderlig at mange av dine lesere har lyst til å bli med oss!

Takk begge to for at du tok deg tid til å svare på spørsmålene våre. Lesere som ønsker å lære mer bør besøke Epistemisk AI.