Interviews
Bobby Samuels, mede-oprichter en CEO van Protege – Interviewreeks

Bobby Samuels leidt de strategie en uitvoering van Protege op het gebied van product, go-to-market en kapitaalvorming. Hij was mede-oprichter van Protege in 2024 en is sinds de oprichting CEO. Onder zijn leiderschap heeft Protege 35 miljoen dollar aan financiering opgehaald en is het bedrijf in zijn eerste volledige jaar van bedrijfsvoering gegroeid tot 30 miljoen dollar aan brutomarge. Eerder was Bobby algemeen directeur van Privacy Hub bij Datavant, waar hij hielp bij de groei van het bedrijf tot aan de fusie met Ciox Health ter waarde van 7,0 miljard dollar, waardoor het grootste neutrale gezondheidsdata-ecosysteem in de VS ontstond. Daarvoor leidde hij partnerships bij LiveRamp, waar hij expertise ontwikkelde in het opbouwen van neutrale datanetwerken. Bobby heeft een M.B.A. van de Stanford Graduate School of Business en een A.B. van Harvard College, waar hij voorzitter was van The Harvard Crimson. Hij beschikt over diepgaande kennis van gereguleerde gegevensuitwisseling en het omzetten van complexe infrastructuur in vertrouwd AI-gebruik voor enterprise-partners.
Protege is een data-infrastructuurbedrijf dat eigenaren van hoogwaardige, propriëtaire datasets verbindt met ontwikkelaars van AI-modellen, en biedt een gereguleerde en privacy-georiënteerde manier om trainingsdata op grote schaal te licenseren en te benaderen. Opgericht in 2024, richt het platform zich op het ontsluiten van multimodale data – zoals medische dossiers, beelden, video’s en audio – die traditioneel moeilijk voor AI-teams zijn te verkrijgen, en geeft het data-aanbieders volledige controle over privacy, compliance en monetaire aspecten. Voor AI-ontwikkelaars stroomlijnt Protege de ontdekking en verwerving via een gecurateerde catalogus en tools voor het filteren en combineren van datasets, waardoor de ontwikkeling in de zorg, media en andere sectoren wordt versneld. In wezen streeft het bedrijf ernaar om de vertrouwde datalaag voor AI te worden, waardoor een van de grootste knelpunten in de moderne modelontwikkeling wordt weggenomen.
Wat inspireerde u om Protege op te richten, en hoe hebben uw ervaringen met het leiden van data-, privacy- en organisatieveranderingen bij Datavant – evenals eerdere rollen bij LiveRamp – uw visie voor de bouw ervan gevormd?
Mijn ervaring bij Datavant liet me zien hoe krachtig en complex het is om data op grote schaal verantwoord te verbinden. Datavant bouwde een platform dat hielp bij het koppelen van gevoelige gezondheidsinformatie terwijl patiëntengegevens werden beschermd, en het werd me duidelijk dat goed gereguleerde data massive maatschappelijke vooruitgang kan stimuleren. Maar wanneer het niet zo is, kan het echt schade aanrichten.
Toen AI versnelde, zag ik hetzelfde patroon zich herhalen: een focus op compute en AI-architecturen, maar niet zozeer op de data die de modellen zelf aandrijven. Onze hypothese is dat de volgende grote bottleneck toegang is tot de juiste data. Ik wilde een data-infrastructuurlaag bouwen die data-delingsveiligheid, transparantie en wederzijds voordeel voor datahouders en AI-ontwikkelaars mogelijk maakt, en ook AI-gegevensspecifieke expertise biedt om onderzoekgedreven AI-vooruitgang te ondersteunen. Dat is wat leidde tot Protege.
Protege beschrijft zichzelf als de “ruggengraat van de AI-data-economie”. Hoe definieert u deze laag, en wat ziet echte data-infrastructuur voor AI er in de praktijk uit?
Protege is het bindweefsel dat data-eigenaren en AI-ontwikkelaars in staat stelt om veilig en efficiënt samen te werken. Echte data-infrastructuur voor AI doet meer dan alleen data opslaan of verplaatsen; het verifieert herkomst, beheert machtigingen en zorgt ervoor dat elke dataset op een ethische en geconsenteerde manier wordt gebruikt. In de praktijk is het een enkel platform waar contenthouders data met vertrouwen kunnen licenseren en naar behoren worden gecompenseerd, en AI-ontwikkelaars toegang hebben tot cruciale datasets in verschillende industrieën, domeinen, modaliteiten en formaten die nodig zijn om modellen verantwoord te trainen en te evalueren.
Een van uw kernmissies is ervoor zorgen dat modellen worden getraind op gelicenceerde, representatieve en geconsenteerde datasets. Hoe operationaliseert Protege ethische sourcing op grote schaal?
We operationaliseren ethiek via systemen, niet via slogans. Met elke data- en contentbron die we aggregaten en leveren, waarborgen we dat de rechthebbenden eigendom behouden met duidelijke licentievoorwaarden en privacybescherming.
Ons platform combineert onze menselijke, onderzoeksgerichte expertise met datapipelines en systemen die schalen om rechthebbende data te leveren. We werken ook met onze data-kopers om ervoor te zorgen dat de data representatief is voor echte wereldbevolkingen en reflecteert van echte wereldgebruikscases. Door zowel data-aanbieders als data-kopers met duidelijkheid en consistentie aan te pakken, kunnen we compliance, eerlijkheid en vertrouwen in stand houden.
De AI-industrie is lange tijd gedreven door een “scrape first, ask later”-mentaliteit. Hoe ziet u transparante data-licensering de relatie tussen data-aanbieders en AI-ontwikkelaars hervormen?
Transparantie verandert extrahering in samenwerking. In plaats van scraping, hebben AI-bedrijven de optie om data op een ethische manier te licenseren van gevalideerde data-aanbieders, waardoor betere stimulansen voor beide partijen ontstaan. Data-aanbieders verdienen inkomsten en controle, en AI-ontwikkelaars krijgen schone, hoogwaardige datasets zonder juridische en IP-problemen.
Deze verschuiving creëert vertrouwen, wat op zijn beurt de snelheid van AI-ontwikkeling versnelt. Wanneer organisaties zien dat AI op een verantwoorde manier kan worden gebouwd met duidelijke toestemming en compensatie voor datarechten, ontgrendelt dit meer gebruikscases en datanoden. Dit creëert meer vraag naar hoogwaardige datasets, waardoor een natuurlijke vliegwiel ontstaat: de beste data-aanbieders trekken kopers aan, en de kopers trekken meer hoogwaardige data-aanbieders aan. Iedereen heeft baat bij dit proces.
Synthetische data wordt vaak gezien als een oplossing voor privacy- en bias-uitdagingen. Waar denkt u dat de juiste balans ligt tussen synthetische en echte werelddatasets, vooral in zeer gereguleerde sectoren zoals de zorg?
Synthetische data is nuttig voor testen en aanvulling, maar kan de volledige nuances en complexiteit van echte wereldactiviteiten die trainings- en evaluatiegegevens genereren, niet volledig vervangen. Dit is vooral waar in de zorg, waar langdurige patiëntenzorg en resultaten in de context van de zorgaanpak belangrijk zijn.
We geloven fundamenteel dat AI die niet is getraind op de volledige complexiteit van de echte wereld, plotseling niet in staat kan zijn om synthetische data te produceren die representatief is voor de echte wereld. Waarschijnlijk zal de juiste balans een hybride aanpak zijn, waarbij we een enorme hoeveelheid meer bruikbare, hoogwaardige data-aanbieders nodig hebben die momenteel zijn afgesloten en moeten worden vrijgegeven, en deze combineren met AI-gegenereerde synthetische data voor specifieke gebruikscases.
Hoe stelt Protege organisaties in staat om waardevolle echte wereldgegevens veilig te delen, zonder propriëtaire informatie, patiëntgegevens of intellectueel eigendom bloot te stellen?
Beveiliging en privacy zijn ingebouwd in elke stap van de reis. Of het nu gaat om onze interne systemen of onze desidentificatie- en privacy-partners die onze gegevensoverdrachten verifiëren, we waarborgen dat onze data binnen de bedoelde grenzen blijft.
In de zorg betekent dit naleving van privacy- en compliance-kaders voor alle onze gegevensoverdrachten. In media betekent dit dat content alleen voor beoogde gebruiken op vooraf overeengekomen licentievoorwaarden en -termijnen wordt gelicenceerd.
Naarmate foundation-modellen verder evolueren, wat zal de volgende generatie hoogwaardige trainingsdata-pipelines definiëren?
Drie principes zullen leiden: herkomst, precisie en doel.
Herkomst betekent volledige traceerbaarheid naar bron en voorwaarden. Precisie betekent curatie voor specifieke modaliteiten of gebruikscases in plaats van generieke corpora van data – of data die niet volledig representatief is voor echte wereldsituaties. Doel betekent dat dataselectie wordt uitgelijnd met echte, concrete resultaten, en niet alleen met ijdelheidsbenchmarks.
Samen creëren deze een pad naar het gebruik van hoogwaardige data om betere modellen te stimuleren.
Hoe beïnvloeden opkomende regelgevingen zoals de EU AI-wet en toekomstige Amerikaanse kaders de aanpak van Protege voor compliance en grensoverschrijdende data-samenwerking?
Deze regelgevingen bevestigen onze aanpak die we voor het bedrijf hebben gekozen. Ze benadrukken transparantie, herkomst en risicobeheer, die in onze producten en platform zijn ingebouwd.
We geloven dat toekomstige AI-kansen rechthebbenden moeten beschermen en strikte privacycontroles in stand moeten houden. Door deze als niet-onderhandelbaar te behandelen, helpen we data-partners en klanten om met vertrouwen en vertrouwen in de steeds veranderende AI-omgeving vooruit te komen. Ons doel is om verantwoorde AI-ontwikkeling niet alleen het juiste te laten zijn, maar ook het gemakkelijkste.
Wat is de rol die u ziet voor data-transparantie en herkomst in het herstellen van het publieke vertrouwen in AI-systemen?
Vertrouwen begint met traceerbaarheid. Wanneer mensen begrijpen waar data vandaan komt en hoe het wordt gebruikt, zijn ze meer geneigd om AI-resultaten te vertrouwen.
Transparantie en herkomst creëren aansprakelijkheid van de data-eigenaar naar de modelontwikkelaar naar de eindgebruiker. Ze veranderen AI van een black box in iets meer begrijpbaars en verklaarbaars.
Na 20x groei en een serie A van 25 miljoen dollar, hoe balanceert u snelle schaalvergroting met het behoud van de ethische en beveiligingsverplichtingen van Protege – en wat is de volgende stap terwijl u verder vorm geeft aan hoe organisaties AI-modellen verantwoord trainen?
Ethiek en beveiliging zijn de basis die ons in staat stelt om te schalen. Elk nieuw proces, elke samenwerking en elk product wordt gemeten aan de hand van de vraag of anderen ernaar kijken. Als iedereen zou zien hoe we opereren en de beslissingen die we nemen, zou ik willen dat ze trots zouden zijn.
Terwijl we vooruitkijken naar 2026, breiden we onze reikwijdte uit naar nieuwe domeinen buiten de zorg en media, en creëren we nieuwe data-producten zoals evaluatiegegevens voor benchmarking, terwijl AI-organisaties streven naar betere meting van AI-prestaties voor echte wereldgebruikscases. Ons doel is om het enige vertrouwde platform voor echte wereld AI-gegevens en expertise te zijn, gebouwd om AI-voortgang voor de lange termijn te stimuleren.
Bedankt voor het geweldige interview, lezers die meer willen leren, kunnen Protege bezoeken.












