Rozhovory
Bobby Samuels, spoluzakladatel a CEO společnosti Protege – rozhovor

Bobby Samuels vede strategii a realizaci společnosti Protege v oblasti produktu, přístupu na trh a tvorby kapitálu. Společnost Protege spoluzaložil v roce 2024 a od jejího založení působí jako CEO. Za jeho vedení společnost Protege získala 35 milionů dolarů ve finančních prostředcích a dosáhla 30 milionů dolarů v hodnotě hrubého obchodního výkonu (GMV) v prvním úplném roce své činnosti. Předtím byl Bobby generálním manažerem společnosti Privacy Hub ve společnosti Datavant, kde pomáhal řídit růst společnosti před jejím spojením s Ciox Health v hodnotě 7,0 miliard dolarů, čímž vznikl největší neutrální zdravotnický datový ekosystém ve Spojených státech. Dříve vedl partnerství ve společnosti LiveRamp, kde získal odborné znalosti v oblasti budování neutrálních datových sítí. Bobby získal titul M.B.A. na Stanford Graduate School of Business a titul A.B. na Harvard College, kde byl prezidentem The Harvard Crimson. Přináší hluboké odborné znalosti v oblasti regulované výměny dat a převodu komplexní infrastruktury na důvěryhodné možnosti umělé inteligence pro podnikové partnery.
Protege je společnost zabývající se datovou infrastrukturou, která spojuje vlastníky vysoce hodnotných, proprietárních datových sad s vývojáři budujícími modely umělé inteligence, a nabízí řízený a soukromý způsob licencování a přístupu k trénovacím datům ve velkém měřítku. Založena v roce 2024, platforma se zaměřuje na odemykání multimodálních dat – jako jsou zdravotnické záznamy, obrázky, video a audio – která jsou tradičně obtížná pro týmy umělé inteligence zdrojovat, zatímco poskytovatelé dat mají plnou kontrolu nad soukromím, dodržováním předpisů a monetizací. Pro vývojáře umělé inteligence společnost Protege zjednodušuje objevování a získávání prostřednictvím katalogu a nástrojů pro filtrování a kombinování datových sad, což pomáhá urychlit vývoj v oblasti zdravotnictví, médií a dalších sektorů. Společnost Protege má za cíl stát se důvěryhodnou datovou vrstvou pro umělou inteligenci, snížením jedné z největších uzlů ve vývoji moderních modelů.
Co vás inspirovalo k založení společnosti Protege, a jak vaše zkušenosti z vedení dat, soukromí a transformačních iniciativ ve společnosti Datavant – stejně jako dříve ve společnostech LiveRamp – formovaly vaši vizi pro budování této společnosti?
Mé zkušenosti ve společnosti Datavant mi ukázaly jak sílu, tak komplexnost spojení dat zodpovědně ve velkém měřítku. Společnost Datavant vytvořila platformu, která pomáhala propojit citlivé zdravotnické informace při zachování soukromí pacientů, a stalo se mi jasné, že dobře řízená data mohou pohánět obrovský společenský pokrok. Ale když to není, může to způsobit skutečnou újmu.
Jakmile urychlovala umělá inteligence, viděl jsem stejný vzorec se opakující: zaměření na výpočetní architektury a umělou inteligenci, ale ne tolik na data pohánějící modely samy. Naše hypotéza je, že další obrovská uzla je přístup k správným datům. Chtěl jsem vybudovat datovou infrastrukturní vrstvu, která činí sdílení dat bezpečným, transparentním a vzájemně prospěšným pro držitele dat a vývojáře umělé inteligence, a současně poskytuje odborné znalosti v oblasti umělé inteligence pro podporu výzkumu a pokroku v oblasti umělé inteligence. To vedlo ke vzniku společnosti Protege.
Společnost Protege popisuje sama sebe jako budující „páteř ekonomiky umělé inteligence“. Jak definujete tuto vrstvu, a co vypadá skutečná datová infrastruktura pro umělou inteligenci v praxi?
Společnost Protege je spojovací tkáň, která umožňuje vlastníkům dat a vývojářům umělé inteligence spolupracovat bezpečně a efektivně. Skutečná datová infrastruktura pro umělou inteligenci dělá více než pouze ukládá nebo přesouvá data; ověřuje původ, spravuje oprávnění a zajišťuje, že každá datová sada je použita eticky a se souhlasem. V praxi je to jednoduchá platforma, kde držitelé obsahu mohou licencovat data s důvěrou a být řádně odměněni, a vývojáři umělé inteligence mohou získat kritická data napříč průmysly, doménami, modalitami a formáty, která potřebují k trénování a hodnocení modelů zodpovědně.
Jedna z vašich hlavních misí je zajištění, aby modely byly trénovány na licencovaných, reprezentativních a založených na souhlasu datových sadách. Jak společnost Protege operationalizuje etické zdrojování ve velkém měřítku?
My operationalizujeme etiku prostřednictvím systémů, ne slogany. S každým zdrojem dat a obsahem, který agregujeme a dodáváme, zajišťujeme, že držitelé práv udržují vlastnictví s jasnými licenčními podmínkami a ochrannými prostředky pro soukromí.
Naše platforma kombinuje naše lidské, výzkumně orientované odborné znalosti s datovými potrubími a systémy, které škálovatelně dodávají chráněná data. Také spolupracujeme s našimi zákazníky, kteří nakupují data, aby zajistili, že data jsou reprezentativní pro reálné světové populace a reflektují reálné světové použití. Tím, že se zabýváme jak dodavateli, tak kupujícími dat s jasností a konzistencí, jsme schopni udržet soulad, spravedlnost a důvěru.
Průmysl umělé inteligence byl po dlouhou dobu poháněn mentalitou „scrape first, ask later“. Jak vidíte transparentní licencování dat měnící vztahy mezi poskytovateli dat a vývojáři umělé inteligence?
Transparentnost mění extrakci na spolupráci. Místo scrapování mají společnosti umělé inteligence možnost eticky licencovat data od ověřených poskytovatelů dat, což vytváří lepší pobídky pro obě strany. Poskytovatelé dat získávají výnosy a kontrolu, a vývojáři umělé inteligence získávají čistější, vyšší kvalitní datové sady bez právních a duševních vlastnických problémů.
Tento posun buduje důvěru, která následně odemyká rychlost ve vývoji umělé inteligence. Když organizace vidí, že umělá inteligence může být postavena zodpovědně s jasným souhlasem a kompenzací pro držitele práv, odemyká to více použití a potřeb dat. To vytváří větší poptávku po vysoce kvalitních datových sadách, což spouští přirozený efekt: nejlepší zdroje dat přitahují kupující, a kupující přitahují více vysoce kvalitních zdrojů dat. Všichni profitovali.
Syntetická data jsou často považována za řešení problémů s soukromím a zkreslením. Kde leží správná rovnováha mezi syntetickými a reálnými datovými sadami, zejména v vysoce regulovaných sektorech, jako je zdravotnictví?
Syntetická data jsou užitečná pro testování a augmentaci, ale nemohou zcela nahradit plnou nuanci a komplexnost reálných světových aktivit, které generují trénovací a evaluační data. To je zejména pravdivé ve zdravotnictví, kde dlouhodobá péče o pacienty a výsledky v kontextu přístupu k péči záleží.
Fundamentálně věříme, že umělá inteligence, která nebyla trénována na plnou komplexnost reálného světa, nemůže náhle produkovat syntetická data, která reprezentují reálný svět. Pravděpodobně bude správná rovnováha hybridním přístupem, kde budeme potřebovat spoustu více užitečných, vysoce kvalitních zdrojů dat, které jsou v současnosti izolovány a potřebují být odemknuty, a poté je kombinovat se syntetickými daty generovanými umělou inteligencí pro specifické použití.
Jak společnost Protege umožňuje organizacím sdílet cenná reálná data bezpečně, bez ohrožení proprietárních informací, zdravotních dat nebo duševního vlastnictví?
Zabezpečení a soukromí jsou integrovány do každého kroku cesty. Pokud jde o naše interní systémy nebo naše partnery pro deidentifikaci a soukromí, kteří ověřují naše datové přenosy, zajišťujeme, že naše data zůstávají v rámci stanovených hranic.
Ve zdravotnictví to znamená dodržování rámců pro soukromí a soulad pro všechny naše datové přenosy. V médiích to znamená zajištění, že obsah je licencován pouze pro určené použití na základě předem dohodnutých licenčních podmínek a délky trvání.
Jak budou definovat budoucí generaci vysoce kvalitních trénovacích datových potrubí tři principy?
Tři principy povedou: původ, přesnost a účel.
Původ znamená plnou stopovatelnost k zdroji a podmínkám. Přesnost znamená kuraci pro specifické modality nebo použití, spíše než obecné sbírky dat – nebo data, která nejsou plně reprezentativní pro reálné světové situace. Účel znamená sladění výběru dat s reálnými konkrétními výsledky, ne pouze s marnými benchmarky.
Společně tyto principy vytvářejí cestu k používání vysoce kvalitních dat pro pohánění lepších modelů.
Jak budou vznikající regulace, jako je zákon EU o umělé inteligenci a budoucí americké rámce, ovlivňovat přístup společnosti Protege k souladu a spolupráci při překračování hranic?
Tyto regulace potvrzují náš přístup, na kterém jsme založili společnost. Zdůrazňují transparentnost, původ a řízení rizik, které jsou naší platformou a produkty zahrnuty jako samozřejmost.
Věříme, že budoucí příležitosti v oblasti umělé inteligence musí chránit držitele práv a udržovat přísné kontroly soukromí. Tím, že tyto principy považujeme za nezbytné, pomáháme partnerům a klientům postupovat vpřed s důvěrou a jistotou v neustále se měnícím prostředí umělé inteligence. Naším cílem je učinit rozvoj umělé inteligence odpovědným nejen správnou věcí, ale i jednodušší věcí.
Jakou roli hrají transparentnost a původ dat při obnově veřejné důvěry v systémy umělé inteligence?
Důvěra začíná stopovatelností. Když lidé chápou, odkud data pocházejí a jak jsou používána, jsou více pravděpodobně ochotni důvěřovat výsledkům umělé inteligence.
Transparentnost a původ vytvářejí odpovědnost od vlastníka dat k vývojáři modelu až po konečného uživatele. Přemění umělou inteligenci z černé skříňky na něco srozumitelnějšího a vysvětlitelnějšího.
Po 20násobném růstu a 25milionové Series A, jak vyvažujete rychlé škálování se zachováním etických a bezpečnostních závazků společnosti Protege – a co je další krok, když budete pokračovat v utváření toho, jak organizace trénují modely umělé inteligence zodpovědně?
Etika a bezpečnost jsou základem, který nám umožňuje škálovat. Každý nový proces, partnerství a produkt je měřen podle toho, zda fungujeme, jako bychom byli sledováni. Pokud by všichni viděli, jak fungujeme a jaká rozhodnutí činíme, chtěl bych, aby na nás byli pyšní.
Khi se díváme do roku 2026, rozšiřujeme náš dosah do nových domén beyond zdravotnictví a médií, a vytváříme nová datová produkty, jako jsou evaluační data pro benchmarking, jak organizace umělé inteligence usilují o lepší měření výkonu umělé inteligence pro reálné použití. Naším cílem je být jedinou důvěryhodnou platformou pro reálná data a odborné znalosti v oblasti umělé inteligence, postavenou na pohánění pokroku v oblasti umělé inteligence na dlouhou dobu.
Děkuji za skvělý rozhovor, čtenáři, kteří si chtějí dozvědět více, by měli navštívit Protege.












