interviuri
Stefano Pacifico și David Heeger, co-fondatorii Epistemic AI – Seria de interviuri

IA epistemică utilizează algoritmi de procesare a limbajului natural (NLP), învățare automată și învățare profundă de ultimă generație pentru a cartografia relațiile dintre un corp tot mai mare de cunoștințe biomedicale, din mai multe surse publice și private, inclusiv documente text și baze de date. Printr-un proces de cartografiere a cunoștințelor, utilizatorii lucrează interactiv cu platforma pentru a cartografia și înțelege subseturi de cunoștințe biomedicale, care dezvăluie concepte și relații și care altfel sunt omise în căutarea tradițională.
Am intervievat ambii co-fondatori ai Epistemic AI pentru a discuta aceste ultime progrese.
Stefano Pacifico vine de la peste 10 ani în dezvoltarea AI aplicată și NLP. Fost la Bloomberg, unde a petrecut 7 ani, și a fost la Elemental Cognition înainte de a începe Epistemic.
David Heeger este profesor de argint de știință a datelor și neuroștiință la NYU și și-a petrecut cariera făcând o legătură între știința informatică, IA și bioștiința. Este membru al Academiei Naționale de Științe. În calitate de fondatori, aceștia reunesc expertiza construirii sistemelor aplicate de IA și NLP la scară largă pentru înțelegerea unor colecții mari de cunoștințe, cu expertiză în biologie computațională și știință biomedicală din anii de cercetare în zonă.
Ce te-a introdus și te-a atras către AI și procesarea limbajului natural (NLP)?
Stefano Pacifico: Când eram la facultate la Roma, iar AI nu era deloc populară (de fapt era foarte marginală), l-am întrebat pe consilierul meu de atunci ce specializare ar fi trebuit să iau printre cei disponibili. El a spus: „Dacă vrei să faci bani, inginerie software și baze de date, dar dacă vrei să fii ciudat, dar foarte avansat, atunci alege Inteligența Artificială”. Am fost vândut la „ciudat”. Apoi am început să lucrez la reprezentarea cunoștințelor și la raționament pentru a studia modul în care agenții autonomi ar putea juca fotbal sau salva oameni. Apoi două realizări m-au făcut să mă îndrăgostesc de NLP: în primul rând, agenții autonomi ar putea fi nevoiți să comunice cu limbajul natural între ei! În al doilea rând, construirea manuală a bazelor formale de cunoștințe este dificilă, în timp ce limbajul natural (în text) oferă deja cea mai mare bază de cunoștințe dintre toate. Știu că astăzi ar putea părea observații evidente, dar nu erau la fel de curente înainte.
Care a fost inspirația din spatele lansării Epistemic AI?
Stefano Pacifico: Am de gând să fac o afirmație îndrăzneață. Nimeni nu are astăzi instrumentele adecvate pentru a înțelege și conecta cunoștințele prezente în colecții mari, în continuă creștere de documente și date. Am lucrat anterior la această problemă în lumea finanțelor. Gândiți-vă la știri, situații financiare, date despre prețuri, acțiuni corporative, dosare etc. Mi s-a părut că problema este amețitoare. Și, desigur, este o problemă dificilă; si unul important! Când l-am cunoscut pe co-fondatorul meu, dr. David Heeger, am petrecut destul de mult timp evaluând oportunitățile de start-up din industria biomedicală. Când ne-am dat seama de volumul imens de informații generate în acest domeniu, parcă totul a căzut la locul potrivit. Cercetătorii biomedicali se luptă cu supraîncărcarea de informații, în timp ce încearcă să se confrunte cu baza vastă și în expansiune rapidă a cunoștințelor biomedicale, inclusiv documente (de exemplu, lucrări, brevete, studii clinice) și baze de date (de exemplu, gene, proteine, căi, medicamente, boli, termeni medicali). Acesta este un punct de durere major pentru cercetători și, fără o soluție adecvată disponibilă, aceștia sunt forțați să utilizeze instrumente de căutare de bază (PubMed și Google Scholar) și să exploreze baze de date selectate manual. Aceste instrumente sunt potrivite pentru a găsi documente care se potrivesc cu cuvinte cheie (de exemplu, o singură genă sau o lucrare de jurnal publicată), dar nu pentru a dobândi cunoștințe cuprinzătoare despre un domeniu sau subdomeniu (de exemplu, COVID-19) sau pentru interpretarea rezultatelor unui randament ridicat. experimente de biologie, cum ar fi secvențierea genelor, exprimarea proteinelor sau screeningul compușilor chimici. Am început Epistemic AI cu ideea de a aborda această problemă cu o platformă care le permite să:
- Scurtați timpul pentru a culege informații și pentru a construi hărți cuprinzătoare de cunoștințe
- Informații interdisciplinare de suprafață care altfel pot fi greu de găsit (descoperirile reale provin adesea din privirea în spațiul alb dintre discipline);
- Identificați ipotezele cauzale prin găsirea de căi și legături lipsă în harta dvs. de cunoștințe.
Care sunt unele dintre sursele publice și private care sunt folosite pentru a mapa aceste relații?
Stefano Pacifico: În acest moment, ingerăm toate sursele disponibile public pe care le putem pune mâna, inclusiv Pubmed și clinicaltrials.gov. Ingerăm baze de date cu gene, medicamente, boli și interacțiunile acestora. Includem, de asemenea, surse de date private pentru clienți selectați, dar nu avem libertatea de a dezvălui încă detalii.
Ce tip de tehnologii de învățare automată sunt utilizate pentru maparea cunoștințelor?
Stefano Pacifico: Una dintre convingerile profunde la Epistemic AI este că zeloria nu este utilă pentru construirea de produse. Construirea unei arhitecturi care să integreze mai multe tehnici de învățare automată a fost o decizie luată de la început, iar acestea variază de la modele de reprezentare a cunoștințelor la modele Transformer, prin înglobare de grafice, dar includ și modele mai simple, cum ar fi regresiile și pădurile aleatorii. Fiecare componentă este atât de simplă pe cât trebuie, dar nu mai simplă. Deși credem că am construit deja componente NLP care sunt de ultimă generație pentru anumite sarcini, nu ne ferim de modele de bază mai simple atunci când este posibil.
Puteți numi câteva dintre companiile, organizațiile non-profit sau instituțiile academice care folosesc platforma Epistemic?
Stefano Pacifico: Deși mi-ar plăcea, nu am fost de acord cu utilizatorii noștri să facem acest lucru. Pot spune că am avut oameni care s-au înscris de la instituții de profil foarte înalt din toate cele trei segmente (companii, organizații non-profit și instituții academice). În plus, intenționăm să menținem platforma gratuită în scopuri academice/non-profit.
Cum ajută Epistemic cercetătorii în identificarea sistemului nervos central (SNC) și a altor biomarkeri specifici bolii?
Dr. David Heeger: Neuroștiința este un domeniu foarte interdisciplinar, care include biologia moleculară și celulară și genomica, dar și psihologia, chimia și principiile fizicii, ingineriei și matematicii. Este atât de larg încât nimeni nu poate fi un expert în toate acestea. Cercetătorii din instituțiile academice și companiile farmaceutice/biotehnologice sunt nevoiți să se specializeze. Dar știm că perspectivele importante sunt interdisciplinare, combinând cunoștințele din sub-specialități. Platforma software bazată pe inteligență artificială pe care o construim permite tuturor să fie mult mai interdisciplinar, să vadă conexiunile dintre subdomeniul lor individual de expertiză și alte subiecte și să identifice noi ipoteze. Acest lucru este deosebit de important în neuroștiință, deoarece este un domeniu atât de interdisciplinar pentru început. Funcția și disfuncția creierului uman este cea mai dificilă problemă cu care s-a confruntat vreodată știința. Avem misiunea de a schimba modul în care lucrează oamenii de știință biomedical și chiar modul în care gândesc.
Epistemic permite, de asemenea, descoperirea mecanismelor genetice ale tulburărilor SNC. Ne poți explica cum funcționează asta?
Dr. David Heeger: Majoritatea bolilor neurologice, a bolilor psihiatrice și a tulburărilor de dezvoltare nu au o explicație simplă în ceea ce privește diferențele genetice. Există o mână de tulburări sindromice pentru care se știe că o anumită mutație provoacă tulburarea. Dar de obicei nu este cazul. Există sute de diferențe genetice, de exemplu, care au fost asociate cu tulburările din spectrul autismului (ASD). Există o anumită înțelegere pentru unele dintre aceste gene cu privire la funcțiile pe care le servesc în ceea ce privește biologia de bază. De exemplu, unele dintre genele asociate cu ASD țin sinapsele împreună în creier (rețineți, totuși, că aceleași gene îndeplinesc de obicei funcții diferite în alte sisteme de organe din organism). Dar există foarte puțină înțelegere a modului în care aceste diferențe genetice pot explica suita complexă de diferențe comportamentale prezentate de persoanele cu ASD. Pentru a înrăutăți lucrurile, doi indivizi cu aceeași diferență genetică pot avea rezultate complet diferite, unul diagnosticat cu TSA și celălalt nu. Și doi indivizi cu profiluri genetice complet diferite pot avea același rezultat, cu deficite comportamentale foarte asemănătoare. Pentru a înțelege toate acestea, este nevoie de o conexiune de la genomica și biologia moleculară la neuroștiința celulară (cum diferențele genetice fac ca neuronii individuali să funcționeze diferit) și apoi la neuroștiința sistemelor (cum cauzează acele diferențe în funcția celulară rețele de un număr mare de neuroni interconectați). să funcționeze diferit) și apoi la psihologie (cum cauzează acele diferențe în funcționarea rețelei neuronale diferențe de cunoaștere, emoție și comportament). Și toate acestea trebuie înțelese din perspectivă de dezvoltare. O diferență genetică poate provoca un deficit într-un anumit aspect al funcției neuronale. Dar creierul nu stă doar acolo și îl ia. Creierele sunt foarte adaptative. Dacă există un mecanism lipsă sau rupt, atunci creierul se va dezvolta diferit pentru a compensa cât mai mult posibil. Această compensare ar putea fi moleculară, de exemplu, reglarea în sus a unui alt receptor sinaptic pentru a înlocui funcția unui receptor sinaptic rupt. Sau compensația ar putea fi comportamentală. Rezultatul final depinde nu numai de diferența genetică inițială, ci și de diferitele încercări de a compensa bazându-se pe alte mecanisme moleculare, celulare, de circuite, sisteme și comportamentale.
Niciun individ nu are cunoștințele necesare pentru a înțelege toate acestea. Cu toții avem nevoie de ajutor. Platforma software bazată pe inteligență artificială pe care o construim permite tuturor să colecteze și să conecteze toate cunoștințele biomedicale relevante, să vadă conexiunile și să identifice noi ipoteze.
Cum folosesc instituțiile biofarmaceutice și academice Epistemic pentru a aborda provocarea COVID-19?
Stefano Pacifico: Am lansat o versiune publică a platformei noastre care include seturi de date specifice COVID și este accesibilă gratuit pentru oricine face cercetări despre COVID-19. Este disponibil la https://covid.epistemic.ai
Care sunt unele dintre celelalte boli sau probleme genetice pentru care a fost folosit Epistemic?
Stefano Pacifico: Am colaborat cu cercetători în autism și, cel mai recent, punem împreună un nou efort de cercetare pentru fibroza chistică. Dar suntem bucuroși să colaborăm cu alți cercetători sau instituții care ar putea avea nevoie de ajutor în cercetarea lor.
Mai există ceva pe care ați dori să împărtășiți despre Epistemic?
Stefano Pacifico: Construim o mișcare de oameni care doresc să schimbe modul în care lucrează și gândesc cercetătorii biomedicali. Sperăm din suflet că mulți dintre cititorii tăi vor dori să ni se alăture!
Vă mulțumim amândurora pentru timpul acordat pentru a răspunde la întrebările noastre. Cititorii care doresc să afle mai multe ar trebui să viziteze IA epistemică.