Connect with us

Bobby Samuels, Co-Fundador y CEO de Protege – Serie de Entrevistas

Entrevistas

Bobby Samuels, Co-Fundador y CEO de Protege – Serie de Entrevistas

mm

Bobby Samuels lidera la estrategia y ejecución de Protege en productos, mercados y formación de capital. Co-fundó Protege en 2024 y ha sido su CEO desde su creación. Bajo su liderazgo, Protege ha recaudado $35M en financiamiento y ha escalado a $30M en GMV en su primer año completo de operaciones. Anteriormente, Bobby fue Gerente General de Privacy Hub en Datavant, donde ayudó a impulsar el crecimiento de la empresa antes de su fusión con Ciox Health por $7.0B para crear el mayor ecosistema de datos de salud neutral en EE. UU. Antes, lideró las asociaciones en LiveRamp, donde desarrolló experiencia en la construcción de redes de datos neutrales. Bobby tiene un M.B.A. de la Escuela de Negocios de la Universidad de Stanford y un A.B. de Harvard College, donde fue Presidente de The Harvard Crimson. Aporta una profunda experiencia en intercambio de datos regulados y en la traducción de infraestructuras complejas en habilitación de IA de confianza para socios empresariales.

Protege es una empresa de infraestructura de datos que conecta a propietarios de conjuntos de datos de alto valor y propietarios con desarrolladores que construyen modelos de IA, ofreciendo una forma gobernada y de privacidad para licenciar y acceder a datos de entrenamiento a escala. Fundada en 2024, la plataforma se centra en desbloquear datos multimodales, como registros médicos, imágenes, video y audio, que tradicionalmente son difíciles para los equipos de IA obtener, mientras da a los proveedores de datos el control total sobre la privacidad, el cumplimiento y la monetización. Para los constructores de IA, Protege simplifica el descubrimiento y la adquisición a través de un catálogo curado y herramientas para filtrar y combinar conjuntos de datos, lo que ayuda a acelerar el desarrollo en sectores como la atención médica, los medios y otros. En esencia, la empresa tiene como objetivo convertirse en la capa de datos de confianza para la IA, reduciendo uno de los mayores cuellos de botella en el desarrollo de modelos modernos.

¿Qué te inspiró a fundar Protege, y cómo influyeron tus experiencias al liderar iniciativas de datos, privacidad y transformación organizacional en Datavant, así como roles anteriores en LiveRamp, en tu visión para construirlo?

Mi experiencia en Datavant me mostró tanto el poder como la complejidad de conectar datos de manera responsable a escala. Datavant construyó una plataforma que ayudó a vincular información de salud sensible mientras mantenía la privacidad del paciente, y se me hizo claro que los datos bien gobernados pueden impulsar un progreso social masivo. Pero cuando la IA se aceleró, vi el mismo patrón repitiéndose: un enfoque en la computación y las arquitecturas de IA, pero no tanto en los datos que impulsan los modelos en sí. Nuestra hipótesis es que el próximo gran cuello de botella es el acceso a los datos correctos. Quería construir una capa de infraestructura de datos que haga que el intercambio de datos sea seguro, transparente y mutuamente beneficioso para los titulares de datos y los constructores de IA, y también proporcionar expertos en datos de IA para apoyar avances de IA basados en la investigación. Eso es lo que llevó a Protege.

Protege se describe a sí mismo como la construcción de la “columna vertebral de la economía de datos de IA”. ¿Cómo defines esa capa, y qué se parece la verdadera infraestructura de datos para IA en la práctica?

Protege es el tejido conectivo que permite a los propietarios de datos y a los desarrolladores de IA colaborar de manera segura y eficiente. La verdadera infraestructura de datos para IA hace más que almacenar o mover datos; verifica la procedencia, gestiona los permisos y asegura que cada conjunto de datos se utilice de manera ética y con consentimiento. En la práctica, es una plataforma única donde los titulares de contenido pueden licenciar datos con confianza y ser compensados adecuadamente, y los constructores de IA pueden acceder a los conjuntos de datos cruciales en various industrias, dominios, modalidades y formatos que necesitan para entrenar y evaluar modelos de manera responsable.

Una de tus misiones principales es asegurar que los modelos se entrenen con conjuntos de datos licenciados, representativos y basados en el consentimiento. ¿Cómo opera Protege la fuente ética a escala?

Operacionalizamos la ética a través de sistemas, no slogans. Con cada fuente de datos y contenido que agregamos y entregamos, nos aseguramos de que los titulares de derechos mantengan la propiedad con términos de licencia y protecciones de privacidad claras.

Nuestra plataforma combina nuestra experiencia humana, orientada a la investigación, con tuberías de datos y sistemas que escalan para entregar datos protegidos por derechos. También trabajamos con nuestros clientes que compran datos para asegurarnos de que los datos sean representativos de poblaciones del mundo real y reflejen casos de uso del mundo real. Al abordar tanto a los proveedores de datos como a los compradores de datos con claridad y consistencia, podemos mantener el cumplimiento, la equidad y la confianza.

La industria de la IA ha estado impulsada durante mucho tiempo por una mentalidad de “extraer primero, preguntar después”. ¿Cómo ves que la licencia de datos transparente cambia las relaciones entre proveedores de datos y desarrolladores de IA?

La transparencia convierte la extracción en colaboración. En lugar de extraer, las empresas de IA tienen la opción de licenciar datos de manera ética de proveedores de datos verificados, lo que crea mejores incentivos para ambas partes. Los proveedores de datos ganan ingresos y control, y los desarrolladores de IA obtienen conjuntos de datos más limpios y de mayor calidad sin problemas legales e de propiedad intelectual.

Este cambio genera confianza, lo que a su vez desbloquea la velocidad en el desarrollo de IA. Cuando las organizaciones ven que la IA se puede construir de manera responsable con consentimiento y compensación claros para los titulares de derechos de datos, esto desbloquea más casos de uso y necesidades de datos. Esto crea una mayor demanda de conjuntos de datos de alta calidad, iniciando un ciclo natural: las mejores fuentes de datos atraen a los compradores, y los compradores atraen a más fuentes de datos de alta fidelidad. Todos se benefician.

Los datos sintéticos a menudo se ven como una solución a los desafíos de privacidad y sesgo. ¿Dónde crees que se encuentra el equilibrio correcto entre conjuntos de datos sintéticos y del mundo real, especialmente en sectores altamente regulados como la atención médica?

Los datos sintéticos son útiles para pruebas y aumentos, pero no pueden reemplazar completamente la complejidad y la sutileza de las actividades del mundo real que generan los datos de entrenamiento y evaluación. Esto es especialmente cierto en la atención médica, donde la historia de cuidado del paciente a largo plazo y los resultados en el contexto del enfoque de cuidado importan.

Creemos fundamentalmente que la IA que no ha sido entrenada en la complejidad completa del mundo real no puede producir de repente datos sintéticos que sean representativos del mundo real. Es probable que el equilibrio correcto sea un enfoque híbrido, donde necesitaremos muchas fuentes de datos de alta calidad que actualmente están siloeadas y necesitan ser desbloqueadas, y luego combinarlas con datos sintéticos generados por IA para casos de uso específicos.

¿Cómo permite Protege que las organizaciones compartan datos del mundo real valiosos de manera segura, sin exponer información propietaria, datos de pacientes o propiedad intelectual?

La seguridad y la privacidad están integradas en cada paso del camino. Ya sea a través de nuestros sistemas internos o de nuestros socios de desidentificación y privacidad que verifican nuestras transferencias de datos, nos aseguramos de que nuestros datos permanezcan dentro de los límites previstos.

En la atención médica, eso significa adherirse a marcos de privacidad y cumplimiento para todas nuestras transferencias de datos. En los medios, significa asegurarse de que el contenido se licencie solo para usos previstos en términos de licencia y duración de los términos acordados.

A medida que los modelos de fundación continúan evolucionando, ¿qué definirá la próxima generación de tuberías de datos de entrenamiento de alta calidad?

Tres principios guiarán: procedencia, precisión y propósito.

La procedencia significa trazabilidad completa a la fuente y los términos. La precisión significa curación para modalidades o casos de uso específicos en lugar de corpus de datos genéricos, o datos que no son completamente reflejos de situaciones del mundo real. El propósito significa alinear la selección de datos con resultados concretos y reales, no solo con métricas de vanidad.

Juntos, estos principios crean un camino hacia el uso de datos de alta calidad para impulsar mejores modelos.

¿Cómo influyen las regulaciones emergentes como el Acta de IA de la UE y los marcos futuros de EE. UU. en el enfoque de Protege hacia el cumplimiento y la colaboración de datos transfronteriza?

Estas regulaciones validan nuestro enfoque que basamos la empresa en. Enfatizan la transparencia, la procedencia y la gestión de riesgos, que están integrados en nuestros productos y plataforma por defecto.

Creemos que las futuras oportunidades de IA deben proteger a los titulares de derechos y mantener controles de privacidad estrictos. Al tratar estos como aspectos no negociables, ayudamos a los socios de datos y a los clientes a avanzar con confianza y confianza en el panorama de IA en constante evolución. Nuestro objetivo es hacer que el desarrollo de IA responsable no solo sea lo correcto, sino también lo más fácil de hacer.

¿Qué papel crees que desempeñan la transparencia de los datos y la procedencia en la reconstrucción de la confianza pública en los sistemas de IA?

La confianza comienza con la trazabilidad. Cuando las personas entienden de dónde vienen los datos y cómo se utilizan, es más probable que confíen en los resultados de la IA.

La transparencia y la procedencia crean rendición de cuentas desde el propietario de los datos hasta el desarrollador del modelo y hasta el usuario final. Convierten la IA de una caja negra en algo más comprensible y explicable.

Después de un crecimiento de 20 veces y una ronda de financiamiento Serie A de $25M, ¿cómo equilibras el crecimiento rápido con el mantenimiento de los compromisos éticos y de seguridad de Protege, y qué hay de próximo mientras continúas dando forma a cómo las organizaciones entrenan modelos de IA de manera responsable?

La ética y la seguridad son la base que nos permite crecer. Cada nuevo proceso, asociación y producto se mide en función de operar como si otros estuvieran observando. Si todos vieran cómo operamos y las decisiones que tomamos, querría que estuvieran orgullosos.

Mientras miramos hacia 2026, estamos expandiendo nuestro alcance a nuevas áreas de dominio más allá de la atención médica y los medios, así como creando nuevos productos de datos como datos de evaluación para la benchmarking, ya que las organizaciones de IA se esfuerzan por medir mejor el rendimiento de la IA para casos de uso del mundo real. Nuestro objetivo es ser la plataforma de confianza única para datos y experiencia del mundo real de IA, construida para impulsar el progreso de la IA a largo plazo.

Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Protege.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.