Entrevistas
Bobby Samuels, Co-Fundador e CEO da Protege – Série de Entrevistas

Bobby Samuels lidera a estratégia e execução da Protege em produtos, go-to-market e formação de capital. Ele co-fundou a Protege em 2024 e atua como CEO desde a sua criação. Sob sua liderança, a Protege levantou $35M em financiamento e alcançou $30M em GMV em seu primeiro ano completo de operações. Anteriormente, Bobby foi Gerente Geral do Privacy Hub da Datavant, onde ajudou a impulsionar o crescimento da empresa antes de sua fusão de $7,0B com a Ciox Health para criar o maior ecossistema de dados de saúde neutro nos EUA. Antes disso, ele liderou parcerias na LiveRamp, onde desenvolveu expertise em construir redes de dados neutras. Bobby possui um M.B.A. pela Stanford Graduate School of Business e um A.B. pelo Harvard College, onde foi Presidente do The Harvard Crimson. Ele traz uma profunda expertise em troca de dados regulamentados e na tradução de infraestruturas complexas em habilitação de IA confiável para parceiros empresariais.
Protege é uma empresa de infraestrutura de dados que conecta proprietários de conjuntos de dados de alto valor e proprietários com desenvolvedores que constroem modelos de IA, oferecendo uma forma governada e de privacidade para licenciar e acessar dados de treinamento em escala. Fundada em 2024, a plataforma se concentra em desbloquear dados multimodais – como registros médicos, imagens, vídeo e áudio – que tradicionalmente são difíceis para as equipes de IA obter, enquanto dá aos fornecedores de dados o controle total sobre privacidade, conformidade e monetização. Para os construtores de IA, a Protege simplifica a descoberta e aquisição por meio de um catálogo curado e ferramentas para filtrar e combinar conjuntos de dados, ajudando a acelerar o desenvolvimento em setores como saúde, mídia e outros. Em essência, a empresa visa se tornar a camada de dados confiável para IA, reduzindo um dos principais gargalos no desenvolvimento de modelos modernos.
O que o inspirou a fundar a Protege, e como suas experiências liderando iniciativas de dados, privacidade e transformação organizacional na Datavant – bem como funções anteriores na LiveRamp – moldaram sua visão para construir a empresa?
Minha experiência na Datavant me mostrou tanto o poder quanto a complexidade de conectar dados de forma responsável em escala. A Datavant construiu uma plataforma que ajudou a vincular informações de saúde sensíveis mantendo a privacidade do paciente, e ficou claro para mim que dados bem governados podem impulsionar um progresso social massivo. Mas, à medida que a IA acelerou, eu vi o mesmo padrão se repetindo: um foco em computação e arquiteturas de IA, mas não tanto nos dados que impulsionam os modelos em si. Nossa hipótese é que o próximo grande gargalo é o acesso aos dados certos. Eu queria construir uma camada de infraestrutura de dados que torna a compartilhamento de dados seguro, transparente e mutuamente benéfico para os detentores de dados e os construtores de IA, enquanto também fornece expertise em dados de IA para apoiar avanços de IA baseados em pesquisa. Foi isso que levou à Protege.
A Protege se descreve como construindo a “espinha dorsal da economia de dados de IA”. Como você define essa camada, e como a infraestrutura de dados verdadeira para IA parece na prática?
A Protege é o tecido conjuntivo que permite que os proprietários de dados e os desenvolvedores de IA colaborem de forma segura e eficiente. A verdadeira infraestrutura de dados para IA faz mais do que armazenar ou mover dados; ela verifica a proveniência, gerencia permissões e garante que cada conjunto de dados seja usado de forma ética e com consentimento. Na prática, é uma plataforma única onde os detentores de conteúdo podem licenciar dados com confiança e serem compensados adequadamente, e os construtores de IA podem acessar os conjuntos de dados cruciais em diferentes setores, domínios, modalidades e formatos que precisam para treinar e avaliar modelos de forma responsável.
Uma das suas principais missões é garantir que os modelos sejam treinados em conjuntos de dados licenciados, representativos e baseados em consentimento. Como a Protege opera a fonte ética em escala?
Nós operacionalizamos a ética por meio de sistemas, não slogans. Com cada fonte de dados e conteúdo que agregamos e entregamos, garantimos que os titulares dos direitos mantenham a propriedade com termos de licença claros e proteções de privacidade.
Nossa plataforma combina nossa expertise humana, orientada para pesquisa, com pipelines de dados e sistemas que escalam para entregar dados protegidos por direitos. Também trabalhamos com nossos clientes que compram dados para garantir que os dados sejam representativos de populações do mundo real e refletam casos de uso do mundo real. Ao abordar tanto os fornecedores de dados quanto os compradores de dados com clareza e consistência, somos capazes de manter a conformidade, a justiça e a confiança.
A indústria de IA há muito tempo é impulsionada por uma mentalidade de “raspar primeiro, perguntar depois”. Como você vê a licença de dados transparente remodelando as relações entre fornecedores de dados e desenvolvedores de IA?
A transparência transforma a extração em colaboração. Em vez de raspar, as empresas de IA têm a opção de licenciar dados de forma ética de fornecedores de dados verificados, o que cria melhores incentivos para ambos os lados. Os fornecedores de dados ganham receita e controle, e os desenvolvedores de IA obtêm conjuntos de dados mais limpos e de maior qualidade sem problemas legais e de propriedade intelectual.
Essa mudança constrói confiança, o que, por sua vez, desbloqueia a velocidade no desenvolvimento de IA. Quando as organizações veem que a IA pode ser construída de forma responsável com consentimento claro e compensação para os titulares de direitos de dados, isso desbloqueia mais casos de uso e necessidades de dados. Isso cria mais demanda por conjuntos de dados de alta qualidade, iniciando um flywheel natural: as melhores fontes de dados atraem compradores, e os compradores atraem mais fontes de dados de alta fidelidade. Todos se beneficiam.
Dados sintéticos são frequentemente vistos como uma solução para desafios de privacidade e viés. Onde você acha que o equilíbrio certo está entre conjuntos de dados sintéticos e do mundo real, especialmente em setores altamente regulamentados como a saúde?
Os dados sintéticos são úteis para testes e aumento, mas não podem substituir totally a complexidade e a nuances dos dados do mundo real que geram os dados de treinamento e avaliação. Isso é especialmente verdadeiro na saúde, onde a história de cuidados ao paciente e os resultados a longo prazo dentro do contexto da abordagem de cuidados importam.
Acreditamos fundamentalmente que a IA que não foi treinada na complexidade total do mundo real não pode produzir dados sintéticos que sejam representativos do mundo real. Provavelmente, o equilíbrio certo será uma abordagem híbrida, onde precisaremos de muitas fontes de dados mais úteis e de alta qualidade que atualmente estão siloadas e precisam ser desbloqueadas, e então combiná-las com dados sintéticos gerados por IA para casos de uso específicos.
Como a Protege habilita as organizações a compartilhar dados do mundo real valiosos de forma segura, sem expor informações proprietárias, dados de pacientes ou propriedade intelectual?
A segurança e a privacidade são construídas em cada etapa da jornada. Seja por meio de nossos sistemas internos ou de nossos parceiros de desidentificação e privacidade que verificam nossas transferências de dados, garantimos que nossos dados permaneçam dentro dos limites pretendidos.
Na saúde, isso significa aderência a quadros de privacidade e conformidade para todas as nossas transferências de dados. Na mídia, isso significa garantir que o conteúdo seja licenciado apenas para usos pretendidos em termos de licença e duração de licença pré-acordados.
À medida que os modelos de fundação continuam a evoluir, o que definirá a próxima geração de pipelines de dados de treinamento de alta qualidade?
Três princípios liderarão: proveniência, precisão e propósito.
A proveniência significa rastreabilidade total até a fonte e os termos. A precisão significa curadoria para modalidades ou casos de uso específicos, em vez de corpora genéricos de dados – ou dados que não são totalmente refletivos de situações do mundo real. O propósito significa alinhar a seleção de dados com resultados concretos, não apenas benchmarks de vaidade.
Juntos, esses criam um caminho para usar dados de alta qualidade para impulsionar modelos melhores.
Como as regulamentações emergentes, como o Ato de IA da UE e os quadros futuros dos EUA, influenciam a abordagem da Protege para conformidade e colaboração de dados transfronteiriça?
Essas regulamentações validam nossa abordagem que baseamos a empresa. Elas enfatizam transparência, proveniência e gestão de riscos, que estão incorporados em nossos produtos e plataforma por padrão.
Acreditamos que as oportunidades de IA futuras devem proteger os titulares de direitos e manter controles de privacidade estritos. Ao tratar esses como não negociáveis, ajudamos os parceiros de dados e os clientes a avançar com confiança e confiança no cenário de IA em constante mudança. Nosso objetivo é tornar o desenvolvimento de IA responsável não apenas a coisa certa a fazer, mas a coisa mais fácil de fazer.
Qual papel você vê a transparência de dados e a proveniência desempenhando na reconstrução da confiança do público nos sistemas de IA?
A confiança começa com a rastreabilidade. Quando as pessoas entendem de onde os dados vieram e como estão sendo usados, elas são mais propensas a confiar nos resultados da IA.
A transparência e a proveniência criam responsabilidade desde o proprietário de dados até o desenvolvedor de modelo e até o usuário final. Elas transformam a IA de uma caixa preta em algo mais compreensível e explicável.
Após um crescimento de 20x e uma Série A de $25M, como você está equilibrando o escalonamento rápido com a manutenção dos compromissos éticos e de segurança da Protege — e o que vem a seguir à medida que você continua moldando como as organizações treinam modelos de IA de forma responsável?
A ética e a segurança são a fundação que nos permite escalar. Todo novo processo, parceria e produto é medido contra a operação como se os outros estivessem assistindo. Se todos vissem como operamos e as decisões que tomamos, eu gostaria que eles ficassem orgulhosos.
À medida que olhamos para 2026, estamos expandindo nosso alcance para novas áreas de domínio além da saúde e da mídia, bem como criando novos produtos de dados, como dados de avaliação para benchmarking, à medida que as organizações de IA buscam medir melhor o desempenho da IA para casos de uso do mundo real. Nosso objetivo é ser a plataforma confiável única para dados e expertise de IA do mundo real, construída para impulsionar o progresso da IA a longo prazo.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Protege.












