Rozhovory
Engy Ziedan, PhD, Chief Scientific Officer a spoluzakladatel Protege – Interview Series

Engy Ziedan, PhD, Chief Scientific Officer a spoluzakladatel Protege, je aplikovaný mikroekonom, jehož práce spočívá na rozhraní vědy o učení, behaviorální ekonomie a rozsáhlé datové analýzy, přičemž přináší akademickou přísnost do rychle se vyvíjející vrstvy AI dat. S pozadím, které zahrnuje role jako asistent profesora na Indiana University a dříve na Tulane University, se jeho výzkum zaměřil na zdravotní politiku, pobídky a skutečné výsledky pomocí komplexních datových souborů. V Protege aplikuje kauzální inferenci a ekonometrické metody, aby zajistil, že systémy pro školení dat jsou měřitelné, reprodukovatelné a vědecky ověřené. Vede také DataLab, výzkumnou část společnosti, kde dohlíží na mezioborové týmy ekonomů, výzkumníků strojového učení a odborníků z různých oblastí, kteří pracují na zlepšení toho, jak jsou soubory AI dat navrženy, vyhodnoceny a nasazeny, a to tak, aby se data nebrala jako hlavní hnací síla výkonu a spolehlivosti modelu.
Protege je platforma AI dat zaměřená na odemknutí vysoce kvalitních, reálných dat ve velkém měřítku, aby se řešil jeden z největších úzkých míst moderního rozvoje AI: kvalita dat. Prostřednictvím své DataLab iniciativy buduje společnost výzkumně orientovaný rámec pro vytváření, hodnocení a benchmarking datových souborů, což pomáhá systémům AI fungovat spolehlivěji v reálném prostředí. Platforma funguje napříč odvětvími, jako je zdravotnictví, média a vědecký výzkum, a produkuje strukturovaná data a benchmarky, které odrážejí reálnou složitost, nikoli syntetické aproximace. Kombinací vědecké metodologie s komerčními aplikacemi se Protege snaží povысit data na stejnou úroveň důležitosti jako modely a výpočetní prostředky, a tím se staví jako kritická infrastruktura pro další generaci systémů AI.
Vaše akademická práce zahrnuje zdraví ekonomiky, kauzální inferenci a rozsáhlé reálné datové soubory, a nyní jste pomohli vytvořit společnost zaměřenou na datovou vrstvu, která pohání AI. Jaké zkušenosti z vašeho výzkumu a kariéry vás vedly k tomu, abyste pomohli vytvořit Protege, a jak tyto poznatky utvořily vizi společnosti a její schopnost zajistit počáteční financování?
Mé akademické vzdělávání jako ekonom bylo základem všeho, co následovalo. To, čemu jsem byl vyučen a co učím, jsou základní ekonometrické techniky. Jádro toho, čemu jsou ekonomové vyučeni, je pochopit zkreslení, klasické a neklasické měřicí chyby a důsledky obou, což se ukázalo jako přesně to, co chybělo ve vrstvě AI dat. Tato základna není specifická pro zdravotnictví nebo dokonce pro datové vědy ve tradičním smyslu. Je to o pochopení toho, co se stane s modelem, když jsou vstupy, které ho živí, systematicky špatné. Co se nyní v oblasti AI výzkumu nazývá algoritmickým zkreslením, je ve své podstatě stejný problém, se kterým se ekonomové potýkají již desetiletí: zkreslená regrese. Když do kurátorské role dat přivedete někoho, kdo byl vyučen myslet tímto způsobem, data, která produkuje, nesou tuto přísnost automaticky.
Co se týče vize společnosti, chci být upřímný ohledně toho, jak to vlastně začalo. Když jste tři lidé, kteří začínají, není žádný dokument s velkolepou vizí. Je tam pouze čin. Skutečným signálem bylo, že to, co jsme produkovali, rezonovalo. Takže jsme prostě dělali více toho.
Protege nedávno představilo DataLab jako novou výzkumnou instituci zaměřenou na rozvoj vědy o datech AI. Jaké konkrétní výzvy v dnešním ekosystému AI vás přesvědčily, že datové soubory a hodnocení potřebují vyhrazený výzkumný úsilí?
Problém, který DataLab byl vytvořen pro řešení, je jeden, který ekonomové nazývají “trh s citrony”. Ekonom George Akerlofův “Problém trhu s citrony” popisuje trh s použitými auty, kde kupující nemohou rozlišit dobré auta od “citronů” před koupí, takže nakonec platí průměrnou cenu. Když se to stane, prodávající skutečně dobrých aut nemají žádný stimul k účasti, protože trh je neocení správně, a kvalita se postupem času zhoršuje. Přesně to se děje na trhu s daty v某些 sektorech AI, kde je obtížné rozlišit dobré trénovací data od špatných.
Kvalita dat je mimořádně obtížně zhodnotit před jejich aktivací. Musíte mít hluboké znalosti dané oblasti, významný čas a i tak můžete být oklámán. Pro stavitele modelů je tento problém asymetrických informací brzdou celého procesu. Ztěžuje nákup, snižuje hodnotu lidí, kteří produkují skutečně dobrá data, a podkopává důvěru na trhu obecně. Benchmarky často nedokážou zachytit složitost skutečných použití, kde statické odpovědi neodrážejí longitudinální, multimodální rozhodování.
DataLab byl vytvořen jako mechanismus, který obnoví důvěru na trhu ve skutečné hodnotě dat předtím, než je někdo získá. Tím, že pochopí jeho oblast, kontext a chyby, a tím, že uzavře tuto smyčku přísným a opakovaným způsobem. To není funkce nákupu. Je to vědecká výzva v jádru, založená na kvalitě, reprezentaci, kontrole znečištění a bezpečnosti. Proto věříme, že data potřebují vyhrazené výzkumné úsilí.
Naopak, proč věříte, že další fáze pokroku v AI bude záviset více na kvalitě, struktuře a hodnocení dat?
Můžete si to představit jako funkci výpočetního výkonu násobeného daty. Data jsou základní složkou. Takže škálování výpočetního výkonu na špatných datech není pokrok; je to plýtvání.
Probíhá debata v oboru o tom, zda velikost modelu versus kvalita dat více přispívá ke ziskům v inteligenci. V jakémkoli segmentu trhu jsou první datové soubory, které jsou shromážděny a použity, vždy ty nejsnazší. To je prostě to, jak fungují trhy. Datové soubory, které by posunuly jehlu dále, jsou obtížnější najít, strukturovat a vyhodnotit. Nezahrnutí těchto datových souborů bylo omezujícím faktorem.
Zdravotnictví je jasným příkladem. Modely, které máme dnes, fungují na úrovni zdravotnického residenta, a to je působivé. Ale nefungují na úrovni hlavního lékaře. To je proto, že to, co senior klinický lékař ví, pochází z let nahromaděných zkušeností, které jsou mimořádně obtížné zachytit v datech, která byla snadno nalezena a označena. Tato mezera není problémem architektury modelu – je to problém dat.
DataLab již spolupracuje s několika předními AI společnostmi. Z vašich diskuzí s těmito laboratořemi, jaké jsou nejčastější slabiny, které vidíte v tom, jak jsou目前 trénovací a vyhodnocovací datové soubory navrženy?
Nejupřímnější odpověď je, že vyhodnocení dat je velmi časově náročné. Jsem si khá jist, že pokud jste výzkumník, který trénuje model na datové sadě a jste si nevložil čas na to, aby jste data skutečně přečetl, pravděpodobně děláte vážnou chybu. A aby byl spravedlivý, většina výzkumníků tuto snahu skutečně dělá. Problém je, že dělat to dobře, ve velkém měřítku, je skutečně obtížné.
Vezměte si, co skutečné vyhodnocení skutečně vyžaduje. Musíte posoudit, zda data jsou nesměšená, zda byla cenzurována způsobem, který není zjevný, a zda existují toxické nebo jinak problematické prvky v nich. Abyste to mohli udělat důvěryhodně, potřebujete skutečné znalosti dané oblasti. Musíte rozumět tomu, odkud data pocházejí, jak vypadají v reálném světě, jak byla shromážděna a kým. Do té doby, než shromáždíte všechny tyto komponenty a pečlivě je propracujete, uplynou tři až čtyři týdny. A pak musíte to udělat znovu pro další datové soubory.
Tento tření se sčítá napříč organizací. Zpomaluje tréninkové procesy, vytváří tlak na to, aby se vyhodnocení zkrátilo, a znamená, že slabiny v datové sadě se často stávají viditelnými až poté, co byl model již postaven na nich. Výzvou není, že lidé se o kvalitu dat nestarají. Je to, že infrastruktura a nástroje pro její důkladné, rychlé a opakované vyhodnocení jednoduše neexistují.
Často popisujete potřebu zacházet s daty jako s vědeckou disciplínou. Co se změní, když organizace začnou přistupovat k návrhu a vyhodnocení datových souborů s toutéž přísností jako v ostatních vědeckých oborech?
Když organizace začnou zacházet s daty s toutéž přísností jako v ostatních vědeckých oborech, první věc, která se změní, je kultura. Nejjasnějším modelem pro to, jak to vypadá, je ekonomie z 80. let, s obratem známým jako vědecká revoluce. Společenská věda v té době publikovala téměř cokoliv – hypotézu, několik podpůrných příkladů a závěr odvozený z časového trendu. Výzkumníci začali říkat: “Neukazujte mi časový trend, ukazujte mi kvazi-experimentaci.” To vedlo k více kontrafaktům a srovnávacím studiím, které mohly skutečně izolovat příčinu a účinek.
Nejzákladnější lekce je, že je velmi snadné oklamat sami sebe, že máte dobrá data, když je nemáte. Proti tomu je kultura falzifikace a kontrol robustnosti – aktivně se snaží zničit své vlastní výsledky, spouštět testy, které by mohly učinit vaše výsledky vypadat špatně, nejen ty, které potvrzují, co jste doufali vidět. Pokud přeskočíte tento krok, neděláte vědu. Vyprávíte příběh, který jste již chtěli říci.
To je rozdíl, který přísnost skutečně dělá, a to se vztahuje přímo na návrh a vyhodnocení datových souborů. Otázkou není, zda váš datové soubory vypadají dobře na povrchu. Otázkou je, zda jste provedli kontroly, které by mohly ukázat, že nejsou, a zda jste tyto výsledky hlásili upřímně. Dva týmy mohou pracovat se stejnou surovinou, a ten, který zahrne falzifikaci od začátku, produkuje něco fundamentálně spolehlivějšího. Vědecká integrita znamená být ochoten zjistit, kde můžete být špatní.
Benchmarking hraje významnou roli v tom, jak průmysl měří pokrok v systémech AI. Kde současné rámce pro hodnocení selhávají, a jaké nové přístupy by mohly produkovat spolehlivější hodnocení výkonu modelů?
Růst trhu s benchmarkingem je skutečně povzbudivý. Práce, která se provádí, sahá přes široký spektrum – od vnitřní validity, kde cílem je navrhnout hodnocení dostatečně přísná, aby jste skutečně věřili výsledku, po vnější validitu, kde jsou modely testovány v živém nasazení a hodnoceny podle jejich užitku. Existuje důležitá práce napříč celým rozsahem, a nejzákladnější odpověď je, že prostě potřebujeme více z nich.
Ale hlubší problém není kvantita benchmarků – je to, že obecně všichni je budují odlišným způsobem. Není žádný standard pro to, jak jsou postaveny, takže výsledné měření se bastante liší, a je obtížné poskytnout důvěryhodné hodnocení. Měl jsem profesora z veřejných ekonomických věd, který říkal: “Nikdy nevíte, co se stalo v zadní místnosti.” Tato fráze přesně zachycuje problém benchmarkingu. Laboratoř může testovat model proti sedmdesáti výsledkům a poté publikovat pouze nejlepší třicet a říci, že model je vynikající v těchto třiceti věcech. Právě teď je to na poskytovatelích modelů, aby sdělili, co se stalo v zadní místnosti.
Potřebujeme rozhodčího pro přísnost. Publikační zkreslení ve vědeckém výzkumu prokázalo opakovaně, že selektivní reporting formuje vnímání toho, co funguje. Stejné dynamiky se odehrávají v hodnocení AI. Řešením není požádat poskytovatele modelů, aby byli více transparentní, protože mají každý stimul k prezentaci svých výsledků příznivě. Co toto odvětví potřebuje, je stanovený standard pro návrh hodnocení a reporting, vyvinutý a vynucený mimo organizace, jejichž modely jsou hodnoceny. Bez toho bude benchmarking pokračovat v měření toho, co laboratoře chtějí ukázat, spíše než toho, co modely skutečně dělají.
DataLab se zaměřuje na partnerství s výzkumníky, vývoj nových datových produktů a akademický výzkum. Jak tyto oblasti spolupracují na vytváření měřitelných zlepšení v systémech AI?
Partnerství DataLabu s AI výzkumníky, vývoj datových produktů a vlastní akademický výzkum jsou všechny části systému, který pracuje na vytváření symetrických informací na trhu s daty. Právě teď trh s daty má stejný problém jako jakýkoli trh s asymetrickými informacemi: lidé, kteří nakupují data, nemohou spolehlivě posoudit jejich kvalitu předtím, než je použijí, a lidé, kteří produkují dobrá data, nejsou dostatečně odměňováni za to.
Naše práce s AI výzkumníky u poskytovatelů modelů umístí DataLab přímo do datové vrstvy vývoje modelů. Tato blízkost je důležitá, protože lidé, kteří staví modely, jsou ti, kteří přesně vědí, kde data selhávají – které schopnosti se nevyvíjí podle očekávání, které hodnocení neustále produkují výsledky, které se neudrží v nasazení. Práce vedle nich znamená, že zpětná vazba je okamžitá a specifická, spíše než druhotná a generalizovaná.
Vedeme akademický výzkum a pracujeme s odborníky z různých oblastí, aby jsme přinesli nezávislou vrstvu zkoumání, a klademe otázky o datové sadě, které by si nikdo se zájmem na výsledku nemyslel položit. Datové produkty jsou místem, kde toto myšlení je testováno na trhu.
Měřitelné zlepšení pochází z opakovaného uzavírání této smyčky. Budujeme něco, spouštíme kontroly falzifikace, zjišťujeme, kde to selže, a pak zpětně krmíme výsledek do výzkumu. Datová sada, která prošla touto smyčkou, je fundamentálně odlišná od té, která prošla jinak – ne proto, že surovina byla lepší od začátku, ale protože proces byl navržen tak, aby nalezl problémy, spíše než je přehlédnout.
Vaše výzkumná pozadí zahrnuje práci s komplexními reálnými datovými soubory, jako jsou elektronické zdravotní záznamy, pojistné údaje a obrazová data. Jak tato zkušenost ovlivnila váš pohled na vytváření důvěryhodných datových souborů pro AI?
Práce s elektronickými zdravotními záznamy, pojistnými údaji a obrazovými daty činí jednu věc okamžitě zřejmou: žádná z nich nebyla vytvořena pro účel, pro který ji používáte. Klinické poznámky byly napsány pro účely fakturace. Pojistné údaje byly generovány pro účely refundace. Obrazová data byla zachycena pro diagnostiku. Každý z těchto datových souborů je proxy – záznam o tom, co systém potřeboval zdokumentovat, nikoli přesné měření toho, co skutečně chcete vědět. Mezera mezi tím, co data jsou, a tím, co potřebujete, aby byla, je místem, kde žije většina tvrdé práce.
Tato zkušenost utvořila velmi specifickou instinkt: předtím, než uděláte cokoliv jiného s datovým souborem, musíte pochopit původní účel, pro který byl vytvořen. Kdo data shromáždil, pod jakými pobídkami, s jakými mezery a pro jaký původní účel to bylo určeno? Datový soubor, který vypadá komplexně, může systematicky podhodnocovat populace, které interagují se zdravotnickým systémem méně často. Obrazový datové soubory, který vypadá čistě, mohl být zpracován způsobem, který odstranil přesně ten signál, který je nejvíce důležitý pro otázku, kterou se snažíte odpovědět.
Praktickým důsledkem pro vytváření důvěryhodných datových souborů je, že rozsah není náhradou za design. Velký datové soubory postavený bez pozornosti k původu se stává pouze více sebevědomě špatným, jak roste. Co skutečně buduje důvěru, je opakované audity, upřímná dokumentace omezení a odborné znalosti, které vám mohou říci, co data nevidí, nejen to, co vidí.
Širší vize Protege zahrnuje propojení různých datových souborů napříč doménami, jako jsou klinické poznámky, genetika, obrazová data a pojistné údaje. Jaké nové možnosti vytváří multimodální data pro AI, a jaké bezpečnostní opatření jsou potřebná pro řízení spojených rizik?
Svět je multimodální. Nikdy byste nedostali klinickou diagnózu založenou pouze na textu. Další atributy jsou důležité, jako jsou výsledky zobrazování, laboratorní hodnoty, pojistné historie, genetické markery atd. I všechny tyto kombinace nejsou dokonalým obrazem toho, co se děje v lidském těle. Pracoval jsem s výzkumníkem, který to dobře řekl: všechna zdravotnická data nejsou dokonalou proxy; je to prostě proxy pro zdraví. Implikace je, že čím více modalit můžete uvážlivě propojit, tím blíže se dostanete k základnímu realitě, kterou se snažíte modelovat.
Když jsou systémy AI trénovány na multimodálních datech, jsou schopny uvažovat napříč stejnou vrstvenou, longitudinální obrazem, ze které pracují klinici.
Bezpečnostní otázka je místem, kde se sázky stávají velmi konkrétními. Pravděpodobnost, že jakýkoli datové soubory se stanou viditelnými na internetu, není zanedbatelná – recentní bezpečnostní porušení to ukázala. A kdokoli, kdo strávil vážný čas čtením zdravotních záznamů, chápe, jak citlivé tyto informace jsou. Co lidé sdílejí se svými lékaři, může rozbit kariéru, poškodit vztahy a způsobit skutečnou újmu, pokud se někdy stane veřejným.
V Protege jeden princip, který z toho vyplývá, je, že jsme neCERTIFIKUjeme svá vlastní data. Používáme třetího certifikátora na dálku, i když jsme právně oprávněni to udělat sami. Důvod je přímý: optimalizační funkce není pouze maximální využití dat. Je to maximální využití dat s omezením soukromí.
Jaké standardy by měly vzniknout kolem návrhu datových souborů, hodnocení a transparentnosti, aby se zajistilo, že budoucí systémy AI budou spolehlivé a bezpečné?
Debata v AI o standardech se zaměřuje na technické selhání, jako je podnět, který produkuje nepřesnou odpověď, nebo model, který se chová neočekávaně při nasazení. Tyto věci jsou důležité, a toto odvětví udělalo skutečný pokrok ve思考u o dokumentaci dat, přísnosti hodnocení a omezeních soukromí, ale existuje širší standard, o kterém toto odvětví dosud nenašlo upřímný způsob, jak diskutovat, a to je ten, který má nejvíce důsledků pro nejvíce lidí.
AI mění práci. Máte mnoho synonym pro slovo “práce” – je to způsob, jak vydělat na živobytí, ale je to také smysl života lidí. Optimistická verze této historky ukazuje na člověka z doby kamenné, který se naučil postavit nůž, pak sledoval, jak výroba udělala tuto dovednost zastaralou, a šel dál, aby vyvinul zcela novou odbornost napříč generacemi. Oblouk lidské práce vždy směřoval k adaptaci. Ale toto vyprávění se stává obtížnějším, když je osoba, která je nahrazována, nemá desetiletí na to, aby se přizpůsobila, nebo vzdělávací základnu, aby se přesunula do odbornosti, která dosud neexistuje. Upřímná verze této konverzace uznává obě věci najednou.
Co toto odvětví potřebuje, není pouze technické standardy pro datové soubory a benchmarky. Potřebuje ochotu zeptat se, které úkoly jsou nahrazovány, v jakém tempu, a jaké jsou důsledky pro lidi a komunity, které jsou zapojeny. To je standard, také.
Měli by tyto standardy produktivity práce stát vedle požadavků na dokumentaci a rámce hodnocení? Nejsme v pozici, abychom měli tuto konverzaci sami. Prodáváme data v Protege, což znamená, že nejsme neutrální stranou. Ale jsme také součástí této ekonomiky, a stejně jako naše rodiny. To nejméně, co můžeme udělat, je být upřímný o složitosti, jasně pojmenovat kompromis a tlačit na takový mezioborový dialog, jaký tato otázka skutečně vyžaduje.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit Protege, DataLab iniciativu nebo Engy Ziedan osobní web.












