Intervjuer
Bobby Samuels, medgrundare och VD för Protege – Intervju-serie

Bobby Samuels leder Proteges strategi och genomförande över produkt, marknadsföring och kapitalbildning. Han co-founded Protege 2024 och har varit VD sedan starten. Under hans ledning har Protege samlat in 35 miljoner dollar i finansiering och skalat till 30 miljoner dollar i GMV under sitt första helårsverksamhet. Tidigare var Bobby General Manager för Privacy Hub på Datavant, där han hjälpte till att driva företagets tillväxt fram till dess 7,0 miljarder dollar fusion med Ciox Health för att skapa den största neutrala hälsodataekosystemet i USA. Tidigare ledde han partnerskap på LiveRamp, där han utvecklade expertis inom byggande av neutrala datanätverk. Bobby har en M.B.A. från Stanford Graduate School of Business och en A.B. från Harvard College, där han var president för The Harvard Crimson. Han har djupgående expertis inom reglerad datautbyte och översättning av komplex infrastruktur till pålitlig AI-aktivering för företagspartners.
Protege är ett data-infrastrukturföretag som kopplar samman ägare av högvärdes, proprietära datamängder med utvecklare som bygger AI-modeller, och erbjuder ett styrkt och privatitetssäkert sätt att licensiera och få tillgång till träningsdata i stor skala. Grundat 2024 fokuserar plattformen på att låsa upp multimodala data – såsom medicinska journaler, avbildning, video och ljud – som traditionellt sett är svåra för AI-lag att källa, samtidigt som dataleverantörerna får full kontroll över privatliv, regelefterlevnad och kommersialisering. För AI-byggare strömlinjeformar Protege upptäckt och förvärv genom en kuraterad katalog och verktyg för filtrering och kombinering av datamängder, vilket hjälper till att påskynda utvecklingen inom hälsovård, media och andra sektorer. I själva verket syftar företaget till att bli det pålitliga dataskiktet för AI, och minska en av de största flaskhalsarna i modern modellutveckling.
Vad inspirerade dig att grunda Protege, och hur formade dina erfarenheter av att leda data-, privatlivs- och organisationsomvandlingsinitiativ på Datavant – samt tidigare roller på LiveRamp – din vision för att bygga det?
Min erfarenhet på Datavant visade mig både kraften och komplexiteten i att ansluta data på ett ansvarsfullt sätt i stor skala. Datavant byggde en plattform som hjälpte till att länka känslig hälsinformation samtidigt som patientens privatliv upprätthölls, och det blev tydligt för mig att välstyrda data kan driva massiv samhällelig framsteg. Men när det inte är det, kan det göra verklig skada.
Sedan AI accelererade, såg jag samma mönster upprepa sig: fokus på beräkning och AI-arkitektur, men inte så mycket på de data som driver modellerna själva. Vår hypotes är att nästa massiva flaskhals är tillgång till rätt data. Jag ville bygga ett data-infrastrukturskikt som gör data-delning säker, transparent och ömsesidigt fördelaktig för datainnehavare och AI-byggare, samtidigt som det tillhandahåller AI-specifik expertis för att stödja forskningsdriven AI-framsteg. Det är vad som ledde till Protege.
Protege beskriver sig själv som att bygga “ryggraden i AI-dataekonomin.” Hur definierar du det här skiktet, och vad ser sann data-infrastruktur för AI ut som i praktiken?
Protege är det sammanbindande vävnaden som låter dataägare och AI-utvecklare samarbeta säkert och effektivt. Sann data-infrastruktur för AI gör mer än att lagra eller flytta data; den verifierar ursprung, hanterar behörigheter och säkerställer att varje datamängd används etiskt och med samtycke. I praktiken är det en enda plattform där innehållsägare kan licensiera data med förtroende och bli korrekt kompenserade enligt överenskommen licensiering och villkor, och AI-byggare kan få tillgång till de avgörande datamängderna över branscher, domäner, modaliteter och format som de behöver för att träna och utvärdera modeller på ett ansvarsfullt sätt.
En av dina kärnuppdrag är att säkerställa att modeller tränas på licensierade, representativa och samtyckesbaserade datamängder. Hur operationaliserar Protege etisk källning i stor skala?
Vi operationaliserar etik genom system, inte slagord. Med varje data- och innehållskälla som vi aggregerar och levererar, säkerställer vi att rättighetsinnehavarna upprätthåller ägande med tydliga licensvillkor och privatlivsskydd.
Vår plattform kombinerar vår mänskliga, forskningsinriktade expertis med data-pipelines och system som skalar för att leverera rättighets skyddade data. Vi arbetar också med våra data-köpare för att säkerställa att data är representativt för realvärldens populationer och återspeglar realvärldens användningsfall. Genom att hantera både dataleverantörer och dataköpare med tydlighet och konsekvens, kan vi upprätthålla regelefterlevnad, rättvisa och förtroende.
AI-branschen har länge drivits av en “skrapa först, fråga senare”-mentalitet. Hur ser du på transparent data-licensiering som omformar relationer mellan dataleverantörer och AI-utvecklare?
Transparens förvandlar extraktion till samarbete. Istället för att skrapa, har AI-företag möjlighet att etiskt licensiera data från granskade dataleverantörer, vilket skapar bättre incitament för båda parter. Dataleverantörer får intäkter och kontroll, och AI-utvecklare får renare, högkvalitativare datamängder utan juridiska och IP-problem.
Denna förändring bygger förtroende, vilket i sin tur låser upp hastighet i AI-utveckling. När organisationer ser att AI kan byggas på ett ansvarsfullt sätt med tydligt samtycke och kompensation för data-rättighetsinnehavare, låser detta upp fler användningsfall och data-behov. Detta skapar mer efterfrågan på högkvalitativa datamängder, vilket startar en naturlig spiral: de bästa datakällorna lockar köpare, och köparna lockar fler högfidelitetsdatakällor. Alla vinner.
Syntetisk data ses ofta som en lösning på privatlivs- och bias-utmaningar. Var tror du att rätt balans ligger mellan syntetisk och realvärldens datamängder, särskilt i starkt reglerade sektorer som hälsovård?
Syntetisk data är användbar för testning och augmentering, men den kan inte helt ersätta den fulla nyansen och komplexiteten i realvärldens aktiviteter som genererar tränings- och utvärderingsdata. Detta är särskilt sant inom hälsovård, där långsiktig patientvård och resultat inom ramen för vårdtillvägagångssättet har betydelse.
Vi tror i grunden att AI som inte har tränats på den fulla komplexiteten i den reala världen inte plötsligt kan producera syntetisk data som är representativ för den reala världen. Sannolikt kommer den rätta balansen att vara en hybridansats, där vi behöver en mängd mer användbara, högkvalitativa datakällor som för närvarande är isolerade och behöver låsas upp, och sedan kombinera dem med AI-genererad syntetisk data för specifika användningsfall.
Hur möjliggör Protege för organisationer att dela värdefulla realvärldens data på ett säkert sätt, utan att exponera proprietär information, patientdata eller immateriella rättigheter?
Säkerhet och privatliv är inbyggda i varje steg av resan. Oavsett om det är genom våra interna system eller våra av-identifierings- och privatlivspartner som verifierar våra dataöverföringar, säkerställer vi att vår data stannar inom de avsedda gränserna.
Inom hälsovård betyder det att följa privatlivs- och regelefterlevnadsramverk för alla våra dataöverföringar. Inom media betyder det att säkerställa att innehåll licensieras endast för avsedda användningar enligt förutbestämda licensvillkor och villkorslängd.
Såsom grundmodeller fortsätter att utvecklas, vad kommer att definiera nästa generation av högkvalitativa träningsdata-pipelines?
Tre principer kommer att leda: ursprung, precision och syfte.
Ursprung betyder full spårbarhet till källa och villkor. Precision betyder kurering för specifika modaliteter eller användningsfall snarare än generiska datamängder – eller data som inte är fullt representativt för realvärldssituationer. Syfte betyder att dataurval är i linje med verkliga, konkreta resultat, inte bara yttäckande benchmark.
Tillsammans skapar dessa en väg mot att använda högkvalitativa data för att driva bättre modeller.
Hur påverkar framväxande regleringar som EU:s AI-lag och kommande amerikanska ramverk Proteges tillvägagångssätt för regelefterlevnad och gränsöverskridande data-samarbete?
Dessa regleringar validerar vår tillvägagångssätt som vi baserade företaget på. De betonar transparens, ursprung och riskhantering, som är inbyggda i våra produkter och plattform som standard.
Vi tror att framtida AI-möjligheter måste skydda rättighetsinnehavare och upprätthålla stränga privatlivskontroller. Genom att behandla dessa som icke-förhandlingsbara, hjälper vi data-partners och kunder att gå framåt med förtroende och tillit i den föränderliga AI-landskapet. Vårt mål är att göra ansvarsfull AI-utveckling inte bara rätt sak att göra, utan också det lättare att göra.
Vilken roll ser du att data-transparens och ursprung spelar i att återupprätta allmänhetens förtroende för AI-system?
Förtroende börjar med spårbarhet. När människor förstår var data kommer ifrån och hur den används, är de mer benägna att lita på AI-resultat.
Transparens och ursprung skapar ansvarighet från dataägaren till modellutvecklaren till slutanvändaren. De förvandlar AI från en svart låda till något mer förståeligt och förklarligt.
Efter 20x tillväxt och en 25 miljoner dollar serie A, hur balanserar du snabb skalning med att upprätthålla Proteges etiska och säkerhetsåtaganden – och vad är nästa steg när du fortsätter att forma hur organisationer tränar AI-modeller på ett ansvarsfullt sätt?
Etik och säkerhet är grunden som tillåter oss att skala. Varje ny process, partnerskap och produkt mäts mot att operera som om andra tittade på. Om alla såg hur vi opererar och de beslut vi fattar, skulle jag vilja att de var stolta.
När vi ser framåt mot 2026, utvidgar vi vår räckvidd till nya domänområden bortom hälsovård och media, samt skapar nya data-produkter som utvärderingsdata för benchmarking, eftersom AI-organisationer strävar efter att bättre mäta AI-prestanda för realvärldens användningsfall. Vårt mål är att vara den enda pålitliga plattformen för realvärldens AI-data och expertis, byggd för att driva AI-framsteg för lång tid.
Tack för den utmärkta intervjun, läsare som vill lära sig mer bör besöka Protege.












