Interviste
Bobby Samuels, Co-Fondatore e CEO di Protege – Serie di Interviste

Bobby Samuels guida la strategia e l’esecuzione di Protege attraverso prodotto, go-to-market e formazione di capitali. Ha co-fondato Protege nel 2024 e ha ricoperto il ruolo di CEO fin dalla sua creazione. Sotto la sua leadership, Protege ha raccolto 35 milioni di dollari di finanziamenti e ha raggiunto 30 milioni di dollari di GMV nel suo primo anno completo di attività. In precedenza, Bobby era General Manager di Privacy Hub presso Datavant, dove ha contribuito a guidare la crescita dell’azienda fino al suo merger da 7,0 miliardi di dollari con Ciox Health per creare il più grande ecosistema di dati sanitari neutrali negli Stati Uniti. In precedenza, ha guidato le partnership presso LiveRamp, dove ha sviluppato competenze nell’ambito della costruzione di reti di dati neutrali. Bobby detiene un M.B.A. presso la Stanford Graduate School of Business e un A.B. presso Harvard College, dove è stato Presidente di The Harvard Crimson. Porta una profonda competenza nell’ambito dello scambio di dati regolamentati e della traduzione di infrastrutture complesse in abilitazione AI attendibile per partner aziendali.
Protege è un’azienda di data-infrastructure che collega i proprietari di dataset di alto valore e proprietari con sviluppatori di modelli di intelligenza artificiale, offrendo un modo governato e privacy-first per concedere in licenza e accedere a dati di formazione su larga scala. Fondata nel 2024, la piattaforma si concentra sull’apertura di dati multimodali – come registri medici, immagini, video e audio – che sono tradizionalmente difficili per i team di intelligenza artificiale da reperire, mentre dà ai fornitori di dati il pieno controllo sulla privacy, sulla conformità e sulla monetizzazione. Per i costruttori di intelligenza artificiale, Protege semplifica la scoperta e l’acquisizione attraverso un catalogo curato e strumenti per filtrare e combinare dataset, aiutando ad accelerare lo sviluppo in settori come sanità, media e altri. In sostanza, l’azienda mira a diventare lo strato di dati attendibile per l’intelligenza artificiale, riducendo uno dei più grandi collo di bottiglia nello sviluppo dei modelli moderni.
Cosa ti ha ispirato a fondare Protege, e come le tue esperienze alla guida di iniziative di dati, privacy e trasformazione organizzativa presso Datavant — così come i ruoli precedenti presso LiveRamp — hanno plasmato la tua visione per costruire l’azienda?
La mia esperienza presso Datavant mi ha mostrato sia il potere che la complessità di collegare i dati in modo responsabile su larga scala. Datavant ha costruito una piattaforma che aiutava a collegare informazioni sanitarie sensibili mantenendo la privacy dei pazienti, e mi è diventato chiaro che i dati ben governati possono guidare enormi progressi sociali. Ma quando non lo sono, possono fare del male reale.
Mentre l’intelligenza artificiale accelerava, ho visto lo stesso modello ripetersi: una concentrazione su calcolo e architetture di intelligenza artificiale, ma non così tanto sui dati che guidano i modelli stessi. La nostra ipotesi è che il prossimo enorme collo di bottiglia è l’accesso ai dati giusti. Volevo costruire uno strato di infrastruttura di dati che rende la condivisione di dati sicura, trasparente e mutualmente benefica per i detentori di dati e i costruttori di intelligenza artificiale, mentre fornisce anche competenze specifiche sui dati per sostenere progressi guidati dalla ricerca nell’intelligenza artificiale. È questo che ha portato a Protege.
Protege si descrive come costruttore della “colonna vertebrale dell’economia dei dati di intelligenza artificiale.” Come definisci questo strato, e cosa rappresenta l’infrastruttura di dati vera e propria per l’intelligenza artificiale nella pratica?
Protege è il tessuto connettivo che permette ai proprietari di dati e ai sviluppatori di intelligenza artificiale di collaborare in modo sicuro ed efficiente. L’infrastruttura di dati vera e propria per l’intelligenza artificiale fa più che memorizzare o spostare dati; verifica la provenienza, gestisce le autorizzazioni e garantisce che ogni dataset venga utilizzato in modo etico e con il consenso. Nella pratica, è una piattaforma unica in cui i detentori di contenuti possono concedere in licenza i dati con fiducia e essere compensati di conseguenza, e i costruttori di intelligenza artificiale possono accedere ai dataset cruciali attraverso settori, domini, modalità e formati che hanno bisogno per formare e valutare modelli in modo responsabile.
Una delle tue missioni principali è garantire che i modelli siano formati su dataset con licenza, rappresentativi e basati sul consenso. Come Protege mette in pratica la fonte etica su larga scala?
Operativiamo l’etica attraverso sistemi, non slogan. Con ogni fonte di dati e contenuto che aggregiamo e consegniamo, ci assicuriamo che i titolari dei diritti mantengano la proprietà con chiari termini di licenza e protezioni della privacy.
La nostra piattaforma combina la nostra competenza umana, orientata alla ricerca, con pipeline di dati e sistemi che si estendono per consegnare i dati protetti dai diritti. Lavoriamo anche con i nostri clienti acquirenti di dati per assicurarci che i dati siano rappresentativi di popolazioni del mondo reale e riflettano casi d’uso del mondo reale. Indirizzando sia i fornitori di dati che gli acquirenti di dati con chiarezza e coerenza, siamo in grado di mantenere la conformità, la correttezza e la fiducia.
L’industria dell’intelligenza artificiale è stata a lungo guidata da una mentalità “scrapa prima, chiedi dopo”. Come vedi la licenza di dati trasparente ridisegnare le relazioni tra fornitori di dati e sviluppatori di intelligenza artificiale?
La trasparenza trasforma l’estrazione in collaborazione. Invece di raschiare, le aziende di intelligenza artificiale hanno l’opzione di concedere in licenza eticamente i dati da fornitori di dati verificati, creando migliori incentivi per entrambe le parti. I fornitori di dati guadagnano entrate e controllo e gli sviluppatori di intelligenza artificiale ottengono dataset più puliti e di alta qualità senza problemi legali e di proprietà intellettuale.
Questo cambio di direzione costruisce fiducia, che a sua volta sblocca velocità nello sviluppo dell’intelligenza artificiale. Quando le organizzazioni vedono che l’intelligenza artificiale può essere costruita in modo responsabile con consenso e compensazione chiari per i titolari dei diritti dei dati, ciò sblocca più casi d’uso e necessità di dati. Ciò crea una maggiore domanda di dataset di alta qualità, avviando una ruota naturale: le migliori fonti di dati attirano acquirenti, e gli acquirenti attirano più fonti di dati ad alta fedeltà. Tutti traggono beneficio.
I dati sintetici sono spesso visti come una soluzione alle sfide di privacy e pregiudizio. Dove pensi che si trovi l’equilibrio giusto tra dataset sintetici e reali, specialmente in settori altamente regolamentati come la sanità?
I dati sintetici sono utili per il test e l’aggiornamento, ma non possono sostituire interamente la piena complessità e sottigliezza delle attività del mondo reale che generano i dati di formazione e valutazione. Ciò è particolarmente vero nel settore sanitario, dove la storia dei pazienti e gli esiti a lungo termine all’interno del contesto dell’approccio di cura hanno importanza.
Crediamo fondamentalmente che l’intelligenza artificiale che non è stata formata sulla piena complessità del mondo reale non possa improvvisamente produrre dati sintetici rappresentativi del mondo reale. Probabilmente, l’equilibrio giusto sarà un approccio ibrido, dove avremo bisogno di molte più fonti di dati utili e di alta qualità che sono attualmente isolate e devono essere sbloccate, e poi combinate con dati sintetici generati dall’intelligenza artificiale per casi d’uso specifici.
Come Protege consente alle organizzazioni di condividere dati reali di valore senza esporre informazioni proprietarie, dati dei pazienti o proprietà intellettuale?
La sicurezza e la privacy sono integrate in ogni passaggio del percorso. Sia che si tratti dei nostri sistemi interni o dei nostri partner di de-identificazione e privacy che verificano i nostri trasferimenti di dati, ci assicuriamo che i nostri dati rimangano all’interno dei confini previsti.
Nel settore sanitario, ciò significa aderenza ai framework di privacy e conformità per tutti i nostri trasferimenti di dati. Nei media, significa assicurarsi che i contenuti siano concessi in licenza solo per utilizzi previsti e su termini di licenza e durata dei termini preaccordati.
Man mano che i modelli di base continuano a evolversi, cosa definirà la prossima generazione di pipeline di dati di formazione di alta qualità?
Tre principi guideranno: provenienza, precisione e scopo.
La provenienza significa tracciabilità completa alla fonte e ai termini. La precisione significa cura per modalità o casi d’uso specifici piuttosto che corpora di dati generici – o dati che non sono pienamente riflettenti situazioni del mondo reale. Lo scopo significa allineare la selezione dei dati con risultati concreti e reali, non solo benchmark di vanità.
Insieme, questi creano un percorso verso l’uso di dati di alta qualità per guidare modelli migliori.
Come le emergenti regolamentazioni come l’Atto AI dell’UE e i futuri framework statunitensi influenzano l’approccio di Protege alla conformità e alla collaborazione transnazionale dei dati?
Queste regolamentazioni validano il nostro approccio che abbiamo basato l’azienda su. Sottolineano la trasparenza, la provenienza e la gestione dei rischi, che sono incorporati nei nostri prodotti e piattaforma per default.
Crediamo che le future opportunità di intelligenza artificiale debbano proteggere i titolari dei diritti e mantenere rigorosi controlli sulla privacy. Trattando questi come non negoziabili, aiutiamo i partner di dati e i clienti a muoversi con fiducia e fiducia nel mutevole panorama dell’intelligenza artificiale. Il nostro obiettivo è rendere lo sviluppo di intelligenza artificiale responsabile non solo la cosa giusta da fare, ma anche la cosa più facile da fare.
Quale ruolo vedi la trasparenza dei dati e la provenienza svolgere nel ricostruire la fiducia del pubblico nei sistemi di intelligenza artificiale?
La fiducia inizia con la tracciabilità. Quando le persone capiscono da dove provengono i dati e come vengono utilizzati, sono più propense a fidarsi dei risultati dell’intelligenza artificiale.
La trasparenza e la provenienza creano responsabilità dal proprietario dei dati allo sviluppatore del modello all’utente finale. Trasformano l’intelligenza artificiale da una scatola nera in qualcosa di più comprensibile e spiegabile.
Dopo una crescita del 20x e un finanziamento di serie A da 25 milioni di dollari, come stai bilanciando la rapida scalabilità con il mantenimento degli impegni etici e di sicurezza di Protege — e cosa c’è dopo mentre continui a plasmare il modo in cui le organizzazioni formano modelli di intelligenza artificiale in modo responsabile?
L’etica e la sicurezza sono la fondazione che ci consente di scalare. Ogni nuovo processo, partnership e prodotto è misurato in base all’operare come se gli altri stessero guardando. Se tutti vedessero come operiamo e le decisioni che prendiamo, vorrei che ne fossero orgogliosi.
Mentre guardiamo al 2026, stiamo espandendo la nostra portata in nuove aree di dominio oltre la sanità e i media, nonché creando nuovi prodotti di dati come dati di valutazione per il benchmarking mentre le organizzazioni di intelligenza artificiale si sforzano di migliorare la misura delle prestazioni dell’intelligenza artificiale per casi d’uso del mondo reale. Il nostro obiettivo è essere la piattaforma attendibile unica per dati e competenze di intelligenza artificiale del mondo reale, costruita per alimentare i progressi dell’intelligenza artificiale a lungo termine.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Protege.












