Interviews

Engy Ziedan, PhD, Chief Scientific Officer en mede-oprichter van Protege – Interview Series

mm

Engy Ziedan, PhD, Chief Scientific Officer en mede-oprichter van Protege, is een toegepast micro-econoom wiens werk zich bevindt op het snijvlak van leerwetenschap, gedrags economie en grootschalige data-analyse, en brengt academische strengheid naar de snel evoluerende AI-gegevenslaag. Met een achtergrond die rollen omvat als assistent-professor aan de Indiana University en eerder aan de Tulane University, heeft haar onderzoek zich gericht op gezondheidsbeleid, stimulansen en resultaten in de echte wereld met behulp van complexe datasets. Bij Protege past ze causale inferentie en econometrische methoden toe om ervoor te zorgen dat trainingsgegevenssystemen meetbaar, reproduceerbaar en wetenschappelijk gevalideerd zijn. Ze leidt ook DataLab, het onderzoeksarm van het bedrijf, waar ze interdisciplinaire teams van economen, machine learning-onderzoekers en domeinexperts leidt die werken aan het verbeteren van de manier waarop AI-datasets worden ontworpen, geëvalueerd en ingezet, waarbij gegevens niet worden behandeld als een kernstuurder van modelprestaties en betrouwbaarheid.

Protege is een AI-gegevensplatform dat zich richt op het ontgrendelen van high-kwaliteit, real-world datasets op grote schaal om een van de grootste bottlenecks in de moderne AI-ontwikkeling aan te pakken: gegevenskwaliteit. Door middel van haar DataLab-initiatief bouwt het bedrijf een onderzoeksgericht kader voor datasetcreatie, evaluatie en benchmarking, waardoor AI-systemen meer betrouwbaar presteren in real-world omgevingen. Het platform werkt in verschillende industrieën, zoals gezondheidszorg, media en wetenschappelijk onderzoek, en produceert gestructureerde datasets en benchmarks die de complexiteit van de echte wereld weerspiegelen in plaats van synthetische benaderingen. Door wetenschappelijke methodologie te combineren met commerciële toepassingen, streeft Protege ernaar om gegevens te verheffen tot hetzelfde niveau van belangrijkheid als modellen en compute, en positioneert zichzelf als kritieke infrastructuur voor de volgende generatie AI-systemen.

Uw academische werk omvat gezondheidseconomie, causale inferentie en grote real-world datasets, en u heeft nu geholpen om een bedrijf op te richten dat zich richt op de datalaag die AI aandrijft. Welke ervaringen in uw onderzoek en carrière leidden u ertoe om Protege te helpen creëren, en hoe hebben die inzichten de visie van het bedrijf en zijn vermogen om eerder financiering te verkrijgen, gevormd?

Mijn academische opleiding als econoom was de basis voor alles wat volgde. Wat ik ben opgeleid in en wat ik onderwijs, zijn core-econometrische technieken. De kern van wat economen zijn opgeleid om te doen, is om bias, klassieke en niet-klassieke meetfouten, en de downstream-consequenties van beide, te begrijpen, wat bleek te zijn exact wat de AI-gegevensruimte miste. Die basis is niet specifiek voor de gezondheidszorg of zelfs voor datawetenschap in de traditionele zin. Het gaat erom te begrijpen wat er gebeurt met een model wanneer de invoer die het voedt systematisch verkeerd is. Wat het AI-onderzoeksgebied nu algoritme-bias noemt, is in wezen hetzelfde probleem dat economen al decennia lang worstelen: een vertekende regressie. Wanneer je iemand in data-curatatie brengt die is opgeleid om zo te denken, draagt de gegenereerde data die rigor van nature.

Wat betreft de visie van het bedrijf, wil ik hier authentiek zijn over hoe het eigenlijk begon. Wanneer je met drie mensen begint, is er geen document met een grandioos visie. Er is gewoon het doen van de dingen. Het echte signaal was dat wat we produceerden, resonantie had. Dus deden we gewoon meer van dat.

Protege heeft onlangs DataLab geïntroduceerd als een nieuw onderzoeksinstelling dat zich richt op het verbeteren van de wetenschap van AI-gegevens. Welke specifieke uitdagingen in het huidige AI-ecosysteem hebben u ervan overtuigd dat datasets en evaluatie een toegewijd onderzoeksinspanning nodig hadden?

Het probleem dat DataLab is opgericht om op te lossen, is een probleem dat economen de “markt voor citroenen” noemen. De econoom George Akerlof’s “markt voor citroenen”-probleem beschrijft een gebruikte auto-markt waar kopers niet kunnen zien welke auto’s goed zijn en welke “citroenen” zijn voordat ze een aankoop doen, dus eindigen ze met het betalen van de gemiddelde prijs. Wanneer dat gebeurt, hebben verkopers van echt goede auto’s geen incentive om deel te nemen, omdat de markt hen niet adequaat beloont, en de kwaliteit daalt over tijd. Dat is precies wat er gebeurt in de datamarkt in bepaalde sectoren van AI, waar het moeilijk is om goede trainingsgegevens van slechte gegevens te onderscheiden.

Gegevenskwaliteit is buitengewoon moeilijk om te beoordelen voordat je het daadwerkelijk activeert. Je moet diepe domeinkennis hebben, veel tijd, en zelfs dan kun je nog worden misleid. Dus, voor modelbouwers, vertraagt dat asymmetrische informatieprobleem de hele pijplijn, maakt het moeilijk om hoeken af te snijden bij de evaluatie, en betekent het dat de zwakheden in een dataset vaak pas zichtbaar worden nadat een model al is gebouwd op basis van hen. De uitdaging is niet dat mensen zich niet druk maken over gegevenskwaliteit. Het is dat de infrastructuur en tooling om het grondig, snel en herhaaldelijk te evalueren, eenvoudigweg niet bestaan.​​​​​​​​​​​​​​​​

U beschrijft vaak de noodzaak om gegevens te behandelen als een wetenschappelijke discipline. Wat verandert wanneer organisaties datasetontwerp en evaluatie beginnen te benaderen met dezelfde strengheid als andere wetenschappelijke gebieden?

Wanneer organisaties beginnen gegevens te behandelen met dezelfde strengheid als andere wetenschappelijke gebieden, verandert de cultuur als eerste. Het duidelijkste model voor wat dat lijkt, komt uit de economie in de jaren tachtig, met een keerpunt dat bekend staat als de geloofwaardigheidsrevolutie. Sociale wetenschap publiceerde op dat moment bijna alles – een hypothese, een handvol ondersteunende voorbeelden en een conclusie getrokken uit een trend in de tijd. Onderzoekers begonnen te zeggen: “Laat me geen trend in de tijd zien, laat me quasi-experimentatie zien.” Dat leidde tot meer contrafeiten en behandelde versus onbehandelde vergelijkingen die daadwerkelijk oorzaak en gevolg konden isoleren.

De kernles is dat het heel gemakkelijk is om jezelf te bedriegen door te denken dat je goede gegevens hebt wanneer je dat niet hebt. Het antidotum is een cultuur van vervalsing en robuustheidscontroles – actief proberen je eigen bevindingen te breken, de tests uitvoeren die je resultaten slecht zouden laten zien, niet alleen die welke bevestigen wat je hoopte te zien. Als je die stap overslaat, doe je geen wetenschap. Je vertelt een verhaal dat je al wilde vertellen.

Benchmarking speelt een belangrijke rol in de manier waarop de industrie vooruitgang meet in AI-systemen. Waar vallen de huidige evaluatiekaders tekort, en welke nieuwe benaderingen zouden meer betrouwbare beoordelingen van modelprestaties kunnen opleveren?

De benchmarkmarkt breidt zich snel uit, en dat is echt bemoedigend. Het werk dat wordt gedaan, omvat een breed spectrum – van interne validiteit, waar het doel is om evaluaties te ontwerpen die rigoureus genoeg zijn om de resultaten te geloven, tot externe validiteit, waar modellen in live-deploymentsituaties worden getest en worden beoordeeld op hoe nuttig het model is geweest. Er is belangrijk werk gaande over de hele range, en het eenvoudigste antwoord is dat we gewoon meer van deze dingen nodig hebben.

Maar het diepere probleem is niet de hoeveelheid benchmarks – het is dat iedereen ze op een andere manier bouwt. Er is geen standaard voor hoe ze worden gebouwd, dus de uitkomstmetingen verschillen nogal, en het is moeilijk om een geloofwaardige evaluatie te geven. Ik had ooit een professor in de publieke economie die zei: “Je weet nooit wat er in de achterkamer gebeurt.” Die frase vat het benchmarkprobleem precies samen. Een lab kan een model testen tegen zeventig uitkomsten en dan alleen de top dertig publiceren en zeggen dat het model uitstekend is in deze dertig dingen. Op dit moment is het aan de modelaanbieders om te laten zien wat er in de achterkamer gebeurt.

DataLab richt zich op partnerships met onderzoekers, de ontwikkeling van nieuwe datasets en dataprodukten, en academisch onderzoek. Hoe werken deze gebieden samen om meetbare verbeteringen te creëren in AI-systemen?

DataLab’s partnership met AI-onderzoekers, onze ontwikkeling van dataprodukten en ons eigen academisch onderzoek zijn allemaal onderdelen van een systeem dat werkt aan het creëren van symmetrische informatie in de datamarkt. Op dit moment heeft de datamarkt hetzelfde probleem als elke markt met asymmetrische informatie: de mensen die gegevens verwerven, kunnen de kwaliteit ervan niet betrouwbaar beoordelen voordat ze het gebruiken, en de mensen die goede gegevens produceren, worden niet adequaat beloond voor het.

Ons werk met AI-onderzoekers bij modelaanbieders plaatst DataLab rechtstreeks in de datalaag van modelontwikkeling. Die nabijheid is belangrijk, omdat de mensen die de modellen bouwen, precies weten waar de gegevens hen in de steek laten – welke capaciteiten ontwikkelen zich niet zoals verwacht, welke evaluaties produceren resultaten die niet standhouden in de implementatie. Samenwerken met hen betekent dat de feedback onmiddellijk en specifiek is, in plaats van indirect en algemeen.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.