interviste
Bobby Samuels, co-fondatore e CEO di Protege – Serie di interviste

Bobby Samuels Guida la strategia e l'esecuzione di Protege in termini di prodotto, go-to-market e formazione del capitale. Ha co-fondato Protege nel 2024 e ne è stato CEO sin dall'inizio. Sotto la sua guida, Protege ha raccolto 35 milioni di dollari di finanziamenti e ha raggiunto i 30 milioni di dollari di GMV nel suo primo anno completo di attività . In precedenza, Bobby è stato Direttore Generale di Privacy Hub presso Datavant, dove ha contribuito a guidare la crescita dell'azienda fino alla fusione da 7.0 miliardi di dollari con Ciox Health per creare il più grande ecosistema di dati sanitari neutrali negli Stati Uniti. In precedenza, ha guidato le partnership presso LiveRamp, dove ha sviluppato competenze nella creazione di reti di dati neutrali. Bobby ha conseguito un MBA presso la Stanford Graduate School of Business e un AB presso l'Harvard College, dove è stato Presidente di The Harvard Crimson. Porta con sé una profonda esperienza nello scambio di dati regolamentato e nella traduzione di infrastrutture complesse in un'abilitazione AI affidabile per i partner aziendali.
proteggere è un'azienda di infrastrutture dati che mette in contatto i proprietari di set di dati proprietari di alto valore con gli sviluppatori che creano modelli di intelligenza artificiale, offrendo un modo governato e rispettoso della privacy per concedere in licenza e accedere ai dati di addestramento su larga scala. Fondata nel 2024, la piattaforma si concentra sullo sblocco di dati multimodali, come cartelle cliniche, immagini, video e audio, tradizionalmente difficili da reperire per i team di intelligenza artificiale, offrendo al contempo ai fornitori di dati il ​​pieno controllo su privacy, conformità e monetizzazione. Per gli sviluppatori di intelligenza artificiale, Protege semplifica la scoperta e l'acquisizione attraverso un catalogo curato e strumenti per filtrare e combinare set di dati, contribuendo ad accelerare lo sviluppo in ambito sanitario, mediatico e in altri settori. In sostanza, l'azienda mira a diventare il livello di dati affidabile per l'intelligenza artificiale, riducendo uno dei maggiori colli di bottiglia nello sviluppo di modelli moderni.
Cosa ti ha ispirato a fondare Protege e in che modo le tue esperienze nella gestione di iniziative di trasformazione organizzativa, dei dati e della privacy presso Datavant, nonché i tuoi precedenti ruoli presso LiveRamp, hanno plasmato la tua visione per realizzarla?
La mia esperienza in Datavant mi ha mostrato sia la potenza che la complessità di connettere i dati in modo responsabile su larga scala. Datavant ha creato una piattaforma che ha contribuito a collegare informazioni sanitarie sensibili nel rispetto della privacy dei pazienti, e mi è diventato chiaro che dati ben gestiti possono guidare un enorme progresso sociale. Ma quando non lo sono, possono causare danni concreti.
Con l'accelerazione dell'intelligenza artificiale, ho visto ripetersi lo stesso schema: un'attenzione particolare alle architetture di calcolo e intelligenza artificiale, ma non tanto ai dati che guidano i modelli stessi. La nostra ipotesi è che il prossimo grande collo di bottiglia sia l'accesso ai dati giusti. Volevo creare un livello di infrastruttura dati che rendesse la condivisione dei dati sicura, trasparente e reciprocamente vantaggiosa per i detentori dei dati e per i costruttori di intelligenza artificiale, fornendo al contempo competenze specifiche sui dati di intelligenza artificiale a supporto dei progressi dell'intelligenza artificiale basati sulla ricerca. Questo è ciò che ha portato a Protege.
Protege si descrive come la "spina dorsale dell'economia dei dati dell'IA". Come definiresti questo livello e come si presenta in pratica una vera infrastruttura dati per l'IA?
Protege è il tessuto connettivo che consente ai proprietari dei dati e agli sviluppatori di intelligenza artificiale di collaborare in modo sicuro ed efficiente. Una vera infrastruttura dati per l'intelligenza artificiale fa molto di più che archiviare o spostare i dati: ne verifica la provenienza, gestisce le autorizzazioni e garantisce che ogni set di dati venga utilizzato in modo etico e con il consenso dell'utente. In pratica, si tratta di un'unica piattaforma in cui i detentori dei contenuti possono concedere in licenza i dati in modo sicuro ed essere adeguatamente compensati di conseguenza, e gli sviluppatori di intelligenza artificiale possono accedere ai set di dati cruciali di diversi settori, domini, modalità e formati, necessari per addestrare e valutare i modelli in modo responsabile.
Una delle vostre missioni principali è garantire che i modelli siano addestrati su set di dati autorizzati, rappresentativi e basati sul consenso. In che modo Protege rende operativo l'approvvigionamento etico su larga scala?
Rendiamo operativa l'etica attraverso sistemi, non slogan. Per ogni fonte di dati e contenuti che aggreghiamo e forniamo, garantiamo che i titolari dei diritti ne mantengano la proprietà , con termini di licenza chiari e tutela della privacy.
La nostra piattaforma combina la nostra competenza umana e orientata alla ricerca con pipeline di dati e sistemi scalabili per fornire dati protetti da diritti. Collaboriamo inoltre con i nostri clienti che acquistano dati per garantire che i dati siano rappresentativi delle popolazioni del mondo reale e rispecchino casi d'uso reali. Rivolgendoci sia ai fornitori che agli acquirenti di dati con chiarezza e coerenza, siamo in grado di garantire conformità , correttezza e fiducia.
Il settore dell'intelligenza artificiale è da tempo guidato da una mentalità del tipo "prima si raschia, poi si chiede". In che modo, secondo lei, la trasparenza delle licenze dei dati sta rimodellando i rapporti tra fornitori di dati e sviluppatori di intelligenza artificiale?
La trasparenza trasforma l'estrazione in collaborazione. Invece di ricorrere allo scraping, le aziende di intelligenza artificiale hanno la possibilità di ottenere in licenza i dati in modo etico da fornitori di dati verificati, il che crea maggiori incentivi per entrambe le parti. I fornitori di dati ottengono ricavi e controllo e gli sviluppatori di intelligenza artificiale ottengono set di dati più puliti e di qualità superiore, senza vincoli legali e di proprietà intellettuale.
Questo cambiamento crea fiducia, che a sua volta accelera lo sviluppo dell'IA. Quando le organizzazioni si rendono conto che l'IA può essere sviluppata in modo responsabile, con un consenso chiaro e una remunerazione per i titolari dei diritti sui dati, si aprono nuovi casi d'uso e nuove esigenze in termini di dati. Questo crea una maggiore domanda di set di dati di alta qualità , innescando un volano naturale: le migliori fonti di dati attraggono acquirenti, e gli acquirenti attraggono più fonti di dati ad alta fedeltà . Tutti ne traggono beneficio.
I dati sintetici sono spesso visti come una soluzione alle sfide legate alla privacy e alla distorsioni. Dove ritieni che si trovi il giusto equilibrio tra set di dati sintetici e dati reali, soprattutto in settori altamente regolamentati come la sanità ?
I dati sintetici sono utili per la sperimentazione e l'integrazione, ma non possono sostituire completamente la complessità e le sfumature delle attività reali che generano i dati di formazione e valutazione. Questo è particolarmente vero in ambito sanitario, dove la storia clinica a lungo termine del paziente e i risultati nel contesto dell'approccio terapeutico sono importanti.
Crediamo fermamente che un'IA non addestrata alla piena complessità del mondo reale non possa improvvisamente essere in grado di produrre dati sintetici rappresentativi del mondo reale. Probabilmente, il giusto equilibrio sarà un approccio ibrido, in cui avremo bisogno di un'enorme quantità di fonti di dati più utili e di alta qualità , attualmente isolate e da sbloccare, per poi combinarle con dati sintetici generati dall'IA per casi d'uso specifici.
In che modo Protege consente alle organizzazioni di condividere dati preziosi del mondo reale in modo sicuro, senza esporre informazioni proprietarie, dati dei pazienti o proprietà intellettuale?
Sicurezza e privacy sono integrate in ogni fase del processo. Che si tratti dei nostri sistemi interni o dei nostri partner per la de-identificazione e la privacy che verificano i nostri trasferimenti di dati, garantiamo che i nostri dati rimangano entro i limiti previsti.
Nel settore sanitario, ciò significa rispettare i quadri normativi in ​​materia di privacy e conformità per tutti i trasferimenti di dati. Nel settore dei media, significa garantire che i contenuti siano concessi in licenza solo per gli usi previsti, secondo termini e durate di licenza concordati in precedenza.
Con la continua evoluzione dei modelli di base, cosa definirà la prossima generazione di pipeline di dati di formazione di alta qualità ?
Saranno tre i principi guida: provenienza, precisione e scopo.
Provenienza significa piena tracciabilità alla fonte e ai termini. Precisione significa selezione per modalità o casi d'uso specifici, piuttosto che per corpora di dati generici o dati che non riflettono pienamente situazioni reali. Scopo significa allineare la selezione dei dati a risultati concreti, non solo a parametri di riferimento vanitosi.
Insieme, questi elementi creano un percorso verso l'utilizzo di dati di alta qualità per sviluppare modelli migliori.
In che modo le normative emergenti, come l'EU AI Act e i futuri quadri normativi statunitensi, influenzano l'approccio di Protege alla conformità e alla collaborazione transfrontaliera sui dati?
Queste normative convalidano l'approccio su cui abbiamo fondato l'azienda. Si concentrano su trasparenza, provenienza e gestione del rischio, principi integrati di default nei nostri prodotti e nella nostra piattaforma.
Crediamo che le future opportunità dell'IA debbano proteggere i titolari dei diritti e mantenere rigorosi controlli sulla privacy. Considerando questi aspetti non negoziabili, aiutiamo i partner e i clienti dei dati ad avanzare con fiducia e sicurezza nel panorama dell'IA in continua evoluzione. Il nostro obiettivo è che lo sviluppo responsabile dell'IA non sia solo la cosa giusta da fare, ma anche la più semplice.
Quale ruolo ritieni che la trasparenza e la provenienza dei dati giochino nel ricostruire la fiducia del pubblico nei sistemi di intelligenza artificiale?
La fiducia inizia con la tracciabilità . Quando le persone capiscono da dove provengono i dati e come vengono utilizzati, sono più propense ad avere fiducia nei risultati dell'intelligenza artificiale.
Trasparenza e provenienza creano responsabilità dal proprietario dei dati allo sviluppatore del modello, fino all'utente finale. Trasformano l'intelligenza artificiale da una scatola nera a qualcosa di più comprensibile e spiegabile.
Dopo una crescita di 20 volte e un round di Serie A da 25 milioni di dollari, come state bilanciando la rapida crescita con il mantenimento degli impegni etici e di sicurezza di Protege? E quali sono i prossimi passi da compiere mentre continuate a plasmare il modo in cui le organizzazioni addestrano i modelli di intelligenza artificiale in modo responsabile?
Etica e sicurezza sono le fondamenta che ci permettono di crescere. Ogni nuovo processo, partnership e prodotto viene valutato in base a un approccio operativo che si basa sull'osservazione di altri. Se tutti vedessero come operiamo e le decisioni che prendiamo, vorrei che ne fossero orgogliosi.
Guardando al 2026, stiamo espandendo la nostra portata in nuovi ambiti oltre a sanità e media, oltre a creare nuovi prodotti dati, come dati di valutazione per il benchmarking, mentre le organizzazioni di intelligenza artificiale si impegnano a misurare meglio le prestazioni dell'IA nei casi d'uso reali. Il nostro obiettivo è essere l'unica piattaforma affidabile per dati e competenze di IA nel mondo reale, costruita per alimentare il progresso dell'IA nel lungo termine.
Grazie per l'ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare proteggere.












