Haastattelut
Engy Ziedan, FT, Chief Scientific Officer ja Protegen perustaja – Haastattelusarja

Engy Ziedan, FT, Protegen Chief Scientific Officer ja perustaja, on soveltava mikrotaloustieteilijä, jonka työ sijoittuu oppimistieteen, käyttäytymistaloustieteen ja laajamittaisten data-analytiikkojen leikkauskohdalle, tuoden akateemisen tarkkuuden nopeasti kehittyvään tekoälydatan kerrokseen. Taustansa, joka kattaa roolit apulaisprofessorina Indianan yliopistossa ja aiemmin Tulane-yliopistossa, hänen tutkimuksensa on keskittynyt terveyspolitiikkaan, kannustimiin ja todellisiin tuloksiin monimutkaisilla tietojoukoilla. Protegessa hän soveltaa kausaalisia päätelmiä ja ekonometrisiä menetelmiä varmistaakseen, että koulutusdatan järjestelmät ovat mitattavissa, toistettavissa ja tieteellisesti validoitavissa. Hän johtaa myös DataLabia, yhtiön tutkimusosastoa, jossa hän valvoo taloustieteilijöiden, tekoälytutkijoiden ja alan asiantuntijoiden monitieteisiä tiimejä, jotka pyrkivät parantamaan tekoälytietojoukkojen suunnittelua, arviointia ja käyttöönottoa, kohdellaen dataa ei pelkästään mallin suorituskyvyn ja luotettavuuden perusvaikutteena.
Protege on tekoälydata-alusta, joka keskittyy laadukkaiden, todellisten tietojoukkojen avaamiseen laajassa mittakaavassa ratkaisemaan yhtä modernin tekoälyn kehityksen suurimmista pullonkauloista: data-laadun. DataLab-aloitteensa kautta yhtiö rakentaa tutkimusperustaisen kehyksen tietojoukon luomiseksi, arvioinnille ja vertailuun, auttaen tekoälyjärjestelmiä suoriutumaan luotettavammin todellisissa ympäristöissä. Alusta toimii eri aloilla, kuten terveydenhuollossa, mediassa ja tieteellisessä tutkimuksessa, tuottaen rakenteisia tietojoukkoja ja vertailukohtia, jotka heijastavat todellisen monimutkaisuuden sijaan syntetisiä approksimaatioita. Yhdistämällä tieteellisen metodologian kaupallisiin sovelluksiin, Protege pyrkii korottamaan datan samalle tasolle kuin mallit ja laskenta, asettamalla itsensä kriittiseksi infrastruktuuriksi seuraavan sukupolven tekoälyjärjestelmiä varten.
Hänen akateeminen työ kattaa terveyden taloustieteen, kausaaliset päätelmät ja laajamittaisten todellisten tietojoukkojen, ja nyt hän on auttanut rakentamaan yhtiön, joka keskittyy tekoälyä voimistavaan datakerrokseen. Mitkä kokemukset hänen tutkimuksessaan ja urallaan johtivat hänet auttamaan Protegen luomisessa, ja miten nuo oivallukset muovasivat yhtiön visiota ja sen kykyä turvata varhaiset rahoitukset?
Minun akateeminen koulutukseni taloustieteilijänä oli perusta kaikele, mitä seurasi. Se, mitä olen koulutettu ja opettanut, on taloudellisen ekonometrian ydinmenetelmät. Ekonomistien ydin on ymmärtää bias, klassinen ja epäklassinen mittausvirhe, ja näiden aliveden vaikutukset, mikä osoittautui olevan täsmälleen se, mitä tekoälydatatilassa puuttui. Se perusta ei ole spesifiä terveydenhuoltoon tai edes perinteiseen data-tiedostoihin. Se on ymmärtää, mitä tapahtuu mallille, kun sille syötetään systemaattisesti vääriä syötearvoja. Se, mitä tekoälytutkimuksessa nimitetään algoritmiseksi harhaksi, on ytimeltään sama ongelma, jonka taloustieteilijät ovat vuosikymmenien ajan pyrkineet ratkaisemaan: harhaanjohtava regressio. Kun tuot dataan joku, joka on koulutettu ajattelemaan noin, datan laatu on jo valmiiksi tarkempi.
Yhtiön visioon tulee olla rehellinen siinä, miten se tosiasiallisesti alkoi. Kun olet kolme ihmistä aloittamassa, ei ole asiakirjaa, jossa on suuri visio. On vain tekeminen. Todellinen signaali oli, että se, mitä tuottimme, resonoi. Teimme vain enemmän siitä.
Protege esitteli äskettäin DataLabin uutena tutkimuslaitoksena, joka pyrkii edistämään tekoälydatan tieteen kehittymistä. Mitkä tarkat haasteet nykyisessä tekoälyekosysteemissä vakuuttivat hänet siitä, että tietojoukkoihin ja arviointiin tarvitaan omistettu tutkimuspyrkimys?
Ongelma, jonka DataLab luotiin ratkaisemaan, on taloustieteilijöillä nimeltään “sitrushedelmien markkinat”. Taloustieteilijä George Akerlofin “Sitrushedelmien markkinat” -ongelma kuvaa käytettyjen autojen markkinaa, jossa ostajat eivät voi erottaa hyviä autoja “sitrushedelmä”-autoista ennen ostoa, joten he päätyvät maksamaan keskiarvoisen hinnan. Kun tämä tapahtuu, myyjillä, joilla on aidosti hyviä autoja, ei ole kannustetta osallistua, koska markkina ei palkitse heitä asianmukaisesti, ja laatu laskee ajan myötä. Tämä on tarkalleen sitä, mitä on tapahtunut data-markkinassa tekoälyn tiettyjen alojen osalla, jossa on vaikea erottaa hyvää koulutusdataa huonosta.
DataLab luotiin mekanismiksi, joka palauttaa markkinoiden luottamuksen datan todelliseen arvoon ennen sen hankkimista. Ymmärtämällä sen alan, kontekstin ja virheitä ja sulkeakseen tämän silmukan tarkoituksenmukaisella, toistettavalla tavalla. Se ei ole hankintatoimi. Se on tieteellinen haaste ytimessään, joka perustuu laatuun, edustavuuteen, saastumisen hallintaan ja turvallisuuteen. Siksi uskomme, että data vaatii omistetun tutkimuspyrkimyksen.
Mitä muutoksia tapahtuu, kun organisaatiot alkavat lähestymään tietojoukkoihin ja arviointiin samalla tarkkuudella kuin muissa tieteellisissä aloissa?
Kun organisaatiot alkavat käsitellä dataa samalla tarkkuudella kuin muissa tieteellisissä aloissa, ensimmäinen asia, joka muuttuu, on kulttuuri. Selkein malli siitä, miltä se näyttää, tulee taloustieteestä 1980-luvulta, jolloin tapahtui uskottavuusvallankumous. Sosiaalitieteessä julkaistiin melkein mitä tahansa — hypoteesi, joukko tukevia esimerkkejä ja johtopäätös, joka perustui aikasarjatrendiin. Tutkijat alkoivat sanoa: “Älä näytä minulle aikasarjatrendiä, näytä minulle kvazi-kokeellisuutta.” Se johti enemmän vastakkainasetteluihin ja käsittelyön, joilla voitiin erottaa syy ja seuraus. Ydinopetus on, että on helppo huijata itseään ajattelemalla, että sinulla on hyvää dataa, kun et todellisuudessa sitä ole. Antidoti on kulttuuri, jossa pyritään falsifiointiin ja robustiuteen — yritetään rikkoa omat löydökset, suorittaa testit, jotka voivat tehdä tulokset huonoiksi, eikä vain niitä, jotka vahvistavat toiveita. Jos ohitetaan tämä vaihe, ei tehdä tiedettä. Kerrotaan tarinaa, jota halutaan jo valmiiksi kertoa.
Mitä heikkouksia Protegen DataLab näkee yleisimmin siinä, miten koulutus- ja arviointitietojoukot suunnitellaan tällä hetkellä?
Rehellisin vastaus on, että on erittäin aikaa vievää arvioida dataa. Olen varma, että jos olet tutkija, joka kouluttaa mallin tietojoukolla ja et ole istunut ja lukenut dataa samalla tavalla kuin luette newspaperin, teet vakavan virheen. Ongelma on, että tehdä se hyvin, laajassa mittakaavassa, on todella vaikeaa.
Miten DataLabin työ yhteistyössä tutkijoiden kanssa, uusien tietojoukkojen ja datatuotteiden kehittäminen sekä akateeminen tutkimus yhdessä luovat mitattavissa olevia parannuksia tekoälyjärjestelmiin?
DataLabin yhteistyö tekoälytutkijoiden kanssa, datatuotteiden kehittäminen ja akateeminen tutkimus ovat kaikki osa järjestelmää, joka pyrkii luomaan symmetrisen tiedon data-markkinoille. Tällä hetkellä data-markkinalla on sama ongelma kuin missä tahansa markkinassa, jossa on epäsymmetrinen tieto: datan hankkijat eivät voi luotettavasti arvioida datan laatua ennen sen käyttöönottoa, ja hyvää dataa tuottavat eivät saa riittävää palkitsemista siitä. Meidän työmme tekoälytutkijoiden kanssa asettaa DataLabin suoraan tekoälymallien kehityksen datakerrokseen. Se läheisyys on tärkeää, koska mallien kehittäjät ovat ne, jotka tietävät tarkalleen, mihin kohtiin data pettää heitä — mitkä kyvyt eivät kehity odotetusti, mitkä arviointitulokset eivät pidä paikkaansa käytännön toiminnassa. Työskennellä heidän kanssaan tarkoittaa, että palaute on välitöntä ja spesifiä eikä toissijaisesti peräisin.
Hänen tutkimustaustansa kattaa monimutkaiset, todelliset tietojoukot, kuten potilastiedot, korvausdata ja kuvantamistiedot. Miten tämä kokemus on vaikuttanut hänen näkemykseensä luotettavien tietojoukkojen rakentamisesta tekoälylle?
Työskennellä potilastietojen, korvausdatan ja kuvantamistiedon parissa osoittaa yhden asian: mikään niistä ei ollut luotu tarkoituksiin, jota varten sitä nyt käytetään. Potilaskertomukset kirjoitettiin laskutukseen. Korvausdata generoitiin korvaukseen. Kuvantaminen tehtiin diagnosoimiseen. Jokainen näistä tietojoukoista on varamuoto — järjestelmän dokumentointiin tarvittava tieto, ei tarkkaa mitattavaa, mitä halutaan tietää. Se ero datan ja tarpeen välillä on siellä, missä suurin osa työstä elää.
Protegen laajempi visio käsittää eri alojen tietojoukkojen, kuten potilaskertomuksien, genomiikan, kuvantamisen ja korvausdatan, yhdistämisen. Mitkä uudet mahdollisuudet monimodaalinen data luo tekoälylle, ja mitkä varotoimet ovat tarpeen monimodaalisen datan liittämiin riskeihin?
Maailma on monimodaalinen. Et saa koskaan kliinistä diagnoosia pelkästään tekstin perusteella. Muita ominaisuuksia on tärkeää, kuten kuvantamistuloksia, laboratoriotuloksia, korvaushistoriaa, geneettisiä merkintöjä jne. Vaikka kaikki nämä yhdistettynä eivät olekaan täydellinen edustus siitä, mitä todella tapahtuu henkilön kehossa. Eräs tutkija totesi hyvin: kaikki terveydenhuollon data ei ole täydellinen varamuoto terveydelle; se on vain varamuoto terveydelle. Se implikoi, että mitä enemmän modaalimuotoja voidaan tarkoituksenmukaisesti yhdistää, sitä lähemmäksi päästään todellisuudesta, jota yritetään mallintaa.
Miten tekoälyjärjestelmien tulee kehittyä, kun ne integroidaan korkean panoksen aloihin, mitkä standardit tulisi kehittää tietojoukkoihin, arviointiin ja avoimuuteen, jotta tulevaisuuden tekoälyjärjestelmät olisivat sekä luotettavia että turvallisia?
Teckoälykeskustelu standardeista keskittyy usein teknisiin vikamuotoihin, kuten virheelliseen vastaukseen tai odottamattomaan käyttäytymiseen käytönaikaisessa ympäristössä. Nuo ovat tärkeitä, ja ala on edennyt data-dokumentaation, arviointirajan ja yksityisyysrajoitusten suhteen, mutta on laajempi standardi, jota ala ei ole vielä löytänyt rehellistä tapaa keskustella, ja se on se, jolla on eniten seurauksia useimmille ihmisille.
Teckoäly uudelleenmuotoilee työtä. Sinulla on monia synonyymejä sanalle “työ” — se on tapa ansaita elantonsa, mutta se on myös ihmisten elämän tarkoitus. Optimistisen version tästä tarinasta viittaa esimerkiksi esihistorialliseen ihmiseen, joka oppi rakentamaan veitsen, sitten valmistusmenetelmien kehittyessä hän menetti tuon taidon, mutta kehitti ajan myötä uusia erinomaisuuksia. Työn kehityskaari on aina ollut sopeutumista kohti. Mutta se on vaikeampaa soveltaa, kun henkilö, jota korvataan, ei ole vuosikymmenien kehityskaarta tai siihen liittyvää koulutusta.
Mitä tehtäviä korvataan, millä tahdilla ja mitkä ovat niiden vaikutukset ihmisille ja yhteisöille, jotka ovat mukana? Se on standardi, jota tarvitaan. Ei pelkästään teknisiä standardeja datalle ja benchmarkkeille vaan myös halukkuutta kysyä, mitkä tehtävät korvataan, millä tahdilla ja mitkä ovat niiden vaikutukset. Se on standardi, jota tarvitaan.
Kiitos haastattelusta, lukijoille, jotka haluavat oppia lisää, suosittelemme vierailemaan Protegen sivustolla, DataLab -aloitteessa tai Engy Ziedanin henkilökohtaisella sivustolla.












