Connect with us

Bobby Samuels, Co-Fondateur et PDG de Protege – Série d’entretiens

Entretiens

Bobby Samuels, Co-Fondateur et PDG de Protege – Série d’entretiens

mm

Bobby Samuels dirige la stratégie et la mise en œuvre de Protege dans les domaines du produit, du marché et de la formation de capital. Il a co-fondé Protege en 2024 et en est le PDG depuis sa création. Sous sa direction, Protege a levé 35 millions de dollars de financement et a atteint 30 millions de dollars de chiffre d’affaires en son premier année d’activité. Auparavant, Bobby était directeur général de Privacy Hub chez Datavant, où il a contribué à la croissance de l’entreprise avant son rachat par Ciox Health pour créer le plus grand écosystème de données de santé neutre aux États-Unis. Plus tôt, il a dirigé les partenariats chez LiveRamp, où il a développé une expertise dans la création de réseaux de données neutres. Bobby est titulaire d’un MBA de la Stanford Graduate School of Business et d’un AB de Harvard College, où il a été président de The Harvard Crimson. Il apporte une expertise approfondie dans l’échange de données réglementées et la traduction d’infrastructures complexes en moyens de mise en œuvre de l’IA fiables pour les partenaires entreprises.

Protege est une entreprise de données qui connecte les propriétaires de jeux de données de haute valeur et propriétaires avec les développeurs de modèles d’IA, offrant une façon de licencier et d’accéder aux données de formation à grande échelle de manière régie et prioritaire en matière de confidentialité. Fondée en 2024, la plateforme se concentre sur le déblocage des données multimodales – telles que les dossiers médicaux, l’imagerie, la vidéo et l’audio – qui sont traditionnellement difficiles pour les équipes d’IA à trouver, tout en donnant aux fournisseurs de données un contrôle total sur la confidentialité, la conformité et la monétisation. Pour les concepteurs d’IA, Protege rationalise la découverte et l’acquisition grâce à un catalogue ciblé et des outils de filtrage et de combinaison de jeux de données, aidant à accélérer le développement dans les secteurs de la santé, des médias et d’autres domaines. En essence, l’entreprise vise à devenir la couche de données de confiance pour l’IA, en réduisant l’un des principaux goulets d’étranglement dans le développement de modèles modernes.

Qu’est-ce qui vous a inspiré à fonder Protege, et comment vos expériences en tant que dirigeant de l’entreprise dans les domaines des données, de la confidentialité et de la transformation organisationnelle chez Datavant – ainsi que vos rôles précédents chez LiveRamp – ont-elles façonné votre vision pour construire l’entreprise ?

Mon expérience chez Datavant m’a montré à la fois le pouvoir et la complexité de la connexion des données de manière responsable à grande échelle. Datavant a construit une plateforme qui a aidé à relier les informations de santé sensibles tout en maintenant la confidentialité des patients, et il m’est devenu clair que des données bien gérées peuvent conduire à des progrès sociétaux importants. Mais lorsque ce n’est pas le cas, cela peut causer des dommages réels.

Alors que l’IA s’accélérait, j’ai vu le même modèle se répéter : une focalisation sur le calcul et les architectures d’IA, mais pas autant sur les données qui alimentent les modèles eux-mêmes. Notre hypothèse est que le prochain goulet d’étranglement important est l’accès aux bonnes données. Je voulais construire une couche d’infrastructure de données qui rende le partage de données sûr, transparent et mutuellement bénéfique pour les détenteurs de données et les concepteurs d’IA, tout en fournissant une expertise spécifique aux données d’IA pour soutenir les progrès de l’IA basés sur la recherche. C’est ce qui a conduit à Protege.

Protege se décrit comme construisant le « squelette de l’économie des données d’IA ». Comment définissez-vous cette couche, et à quoi ressemble une véritable infrastructure de données pour l’IA dans la pratique ?

Protege est le tissu conjonctif qui permet aux propriétaires de données et aux développeurs d’IA de collaborer en toute sécurité et efficacement. Une véritable infrastructure de données pour l’IA fait plus que stocker ou déplacer des données ; elle vérifie la provenance, gère les autorisations et garantit que chaque jeu de données est utilisé de manière éthique et avec le consentement. Dans la pratique, il s’agit d’une plateforme unique où les détenteurs de contenu peuvent licencier des données avec confiance et être dédommagés en conséquence, et où les concepteurs d’IA peuvent accéder aux jeux de données essentiels dans les industries, les domaines, les modalités et les formats dont ils ont besoin pour former et évaluer des modèles de manière responsable.

L’un de vos objectifs principaux est de garantir que les modèles sont formés à partir de jeux de données licenciés, représentatifs et basés sur le consentement. Comment Protege met-il en œuvre l’approvisionnement éthique à grande échelle ?

Nous mettons en œuvre l’éthique à travers des systèmes, et non des slogans. Avec chaque source de données et de contenu que nous agrégeons et livrons, nous nous assurons que les ayants droit maintiennent la propriété avec des conditions de licence et des protections de confidentialité claires

Notre plateforme combine notre expertise humaine, orientée vers la recherche, avec des pipelines de données et des systèmes qui peuvent être mis à l’échelle pour livrer des données protégées par des droits. Nous travaillons également avec nos clients acheteurs de données pour nous assurer que les données sont représentatives des populations du monde réel et reflètent les cas d’utilisation du monde réel. En abordant à la fois les fournisseurs de données et les acheteurs de données avec clarté et cohérence, nous sommes en mesure de maintenir la conformité, l’équité et la confiance.

L’industrie de l’IA a longtemps été animée par une mentalité « gratter d’abord, demander plus tard ». Comment voyez-vous la licence de données transparente remodeler les relations entre les fournisseurs de données et les développeurs d’IA ?

La transparence transforme l’extraction en collaboration. Au lieu de gratter, les entreprises d’IA ont la possibilité de licencier éthiquement des données auprès de fournisseurs de données vérifiés, ce qui crée de meilleures incitations pour les deux parties. Les fournisseurs de données gagnent des revenus et un contrôle, et les développeurs d’IA obtiennent des jeux de données plus propres et de meilleure qualité sans les problèmes juridiques et de propriété intellectuelle.

Ce changement crée la confiance, qui à son tour débloque la vitesse dans le développement de l’IA. Lorsque les organisations voient que l’IA peut être construite de manière responsable avec un consentement clair et une compensation pour les ayants droit des données, cela débloque davantage de cas d’utilisation et de besoins en données. Cela crée une demande plus importante pour des jeux de données de haute qualité, amorçant un cercle vertueux : les meilleures sources de données attirent les acheteurs, et les acheteurs attirent davantage de sources de données de haute fidélité. Tout le monde en bénéficie.

Les données synthétiques sont souvent considérées comme une solution aux défis de confidentialité et de biais. Où pensez-vous que se situe l’équilibre entre les données synthétiques et les données du monde réel, en particulier dans des secteurs hautement réglementés comme la santé ?

Les données synthétiques sont utiles pour les tests et les augmentations, mais elles ne peuvent pas entièrement remplacer la complexité et la nuance des activités du monde réel qui génèrent les données de formation et d’évaluation. C’est particulièrement vrai dans le domaine de la santé, où l’historique des soins aux patients et les résultats à long terme dans le contexte de l’approche des soins sont importants.

Nous croyons fondamentalement que l’IA qui n’a pas été formée sur la complexité du monde réel ne peut pas soudainement être en mesure de produire des données synthétiques représentatives du monde réel. Il est probable que l’équilibre approprié sera une approche hybride, où nous aurons besoin de davantage de sources de données utiles et de haute qualité qui sont actuellement verrouillées et doivent être débloquées, et que nous combinerons ensuite avec des données synthétiques générées par l’IA pour des cas d’utilisation spécifiques.

Comment Protege permet-il aux organisations de partager des données du monde réel de valeur de manière sécurisée, sans exposer d’informations propriétaires, des données de patients ou de la propriété intellectuelle ?

La sécurité et la confidentialité sont intégrées dans chaque étape du processus. Que ce soit à travers nos systèmes internes ou nos partenaires de dé-identification et de confidentialité qui vérifient nos transferts de données, nous nous assurons que nos données restent dans les limites prévues.

Dans le domaine de la santé, cela signifie le respect des cadres de confidentialité et de conformité pour tous nos transferts de données. Dans les médias, cela signifie garantir que le contenu est licencié uniquement pour les utilisations prévues et les durées de licence convenues.

À mesure que les modèles de base continuent d’évoluer, qu’est-ce qui définira la prochaine génération de pipelines de données de formation de haute qualité ?

Trois principes guideront : la provenance, la précision et le but.

La provenance signifie la traçabilité complète à la source et aux conditions. La précision signifie la curation pour des modalités ou des cas d’utilisation spécifiques plutôt que des corpus de données génériques – ou des données qui ne sont pas entièrement représentatives des situations du monde réel. Le but signifie l’alignement de la sélection des données sur des résultats concrets, et non seulement des benchmarks de vanité.

Ensemble, ces principes créent un chemin vers l’utilisation de données de haute qualité pour améliorer les modèles.

Comment les réglementations émergentes comme le Règlement AI de l’UE et les cadres futurs des États-Unis influencent-ils l’approche de Protege en matière de conformité et de collaboration de données transfrontalières ?

Ces réglementations valident notre approche que nous avons fondée notre entreprise. Ils mettent l’accent sur la transparence, la provenance et la gestion des risques, qui sont intégrés dans nos produits et notre plateforme par défaut.

Nous croyons que les opportunités futures d’IA doivent protéger les ayants droit et maintenir des contrôles de confidentialité stricts. En traitant ces aspects comme des non-négociables, nous aidons les partenaires de données et les clients à avancer avec confiance et confiance dans le paysage de l’IA en constante évolution. Notre objectif est de rendre le développement responsable de l’IA non seulement la bonne chose à faire, mais aussi la chose la plus facile à faire.

Quel rôle la transparence des données et la provenance joueront-elles dans la reconstruction de la confiance du public dans les systèmes d’IA ?

La confiance commence avec la traçabilité. Lorsque les gens comprennent d’où viennent les données et comment elles sont utilisées, ils sont plus susceptibles de faire confiance aux résultats de l’IA.

La transparence et la provenance créent une responsabilité qui va de l’ayant droit des données au développeur de modèles jusqu’à l’utilisateur final. Ils transforment l’IA en quelque chose de plus compréhensible et explicatif.

Après une croissance de 20 fois et un financement de série A de 25 millions de dollars, comment équilibrez-vous une croissance rapide avec le maintien des engagements éthiques et de sécurité de Protege — et qu’est-ce qui vient ensuite alors que vous continuez de façonner la façon dont les organisations forment des modèles d’IA de manière responsable ?

L’éthique et la sécurité sont les fondements qui nous permettent de nous développer. Chaque nouveau processus, partenariat et produit est mesuré par rapport à l’opération comme si les autres nous regardaient. Si tout le monde voyait comment nous opérons et les décisions que nous prenons, je voudrais qu’ils soient fiers.

Alors que nous regardons vers 2026, nous élargissons notre portée à de nouveaux domaines au-delà de la santé et des médias, ainsi que la création de nouveaux produits de données tels que des données d’évaluation pour le benchmarking à mesure que les organisations d’IA s’efforcent d’améliorer la mesure des performances de l’IA pour les cas d’utilisation du monde réel. Notre objectif est d’être la plateforme de confiance unique pour les données et l’expertise d’IA du monde réel, conçue pour alimenter les progrès de l’IA à long terme. Thank you for the great interview, readers who wish to learn more should visit Protege.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.