Interviews
Bobby Samuels, Co-Founder und CEO von Protege – Interview-Serie

Bobby Samuels leitet die Strategie und Umsetzung von Protege bei Produkt, Go-to-Market und Kapitalbildung. Er co-gründete Protege im Jahr 2024 und ist seit der Gründung CEO. Unter seiner Führung hat Protege 35 Millionen Dollar an Finanzierungsmitteln aufgebracht und sich im ersten vollständigen Geschäftsjahr auf 30 Millionen Dollar Umsatz im Großhandel (GMV) skaliert. Zuvor war Bobby General Manager von Privacy Hub bei Datavant, wo er zum Wachstum des Unternehmens beitrug, das vor seiner 7,0-Milliarden-Dollar-Fusion mit Ciox Health zum größten neutralen Gesundheitsdaten-Ökosystem in den USA führte. Früher leitete er Partnerschaften bei LiveRamp, wo er Expertenwissen im Aufbau neutraler Daten-Netzwerke entwickelte. Bobby hält einen M.B.A. von der Stanford Graduate School of Business und einen A.B. vom Harvard College, wo er Präsident von The Harvard Crimson war. Er bringt tiefes Fachwissen in regulierte Daten-Austausch und die Übersetzung komplexer Infrastruktur in vertrauenswürdige KI-Ermöglichung für Unternehmenspartner mit.
Protege ist ein Daten-Infrastruktur-Unternehmen, das Besitzer hochwertiger, proprietärer Datensätze mit Entwicklern von KI-Modellen verbindet und eine geregelte und datenschutzfreundliche Möglichkeit bietet, Trainingsdaten im großen Maßstab zu lizenzieren und zuzugreifen. Gegründet im Jahr 2024, konzentriert sich die Plattform auf das Freischalten multimodaler Daten – wie medizinische Aufzeichnungen, Bilder, Videos und Audio -, die traditionell für KI-Teams schwierig zu beschaffen sind, während Datenanbietern die volle Kontrolle über Datenschutz, Compliance und Monetisierung gewährt wird. Für KI-Entwickler vereinfacht Protege die Entdeckung und Beschaffung durch einen kuratierten Katalog und Werkzeuge für die Filterung und Kombination von Datensätzen, was die Entwicklung in den Bereichen Gesundheitswesen, Medien und anderen Branchen beschleunigt. Im Wesentlichen zielt das Unternehmen darauf ab, die vertrauenswürdige Daten-Schicht für KI zu werden und eine der größten Engpässe in der modernen Modellentwicklung zu reduzieren.
Was hat Sie dazu inspiriert, Protege zu gründen, und wie haben Ihre Erfahrungen bei der Leitung von Daten-, Datenschutz- und Organisations-Transformationsinitiativen bei Datavant – sowie früheren Rollen bei LiveRamp – Ihre Vision für den Aufbau des Unternehmens geprägt?
Meine Erfahrung bei Datavant hat mir sowohl die Macht als auch die Komplexität des verantwortungsvollen Verbindens von Daten im großen Maßstab gezeigt. Datavant baute eine Plattform, die half, sensible Gesundheitsinformationen unter Wahrung der Patienten-Datenschutz zu verknüpfen, und es wurde mir klar, dass gut geregelte Daten massive gesellschaftliche Fortschritte vorantreiben können. Aber wenn sie es nicht sind, können sie echten Schaden anrichten.
Als KI beschleunigte, sah ich das gleiche Muster wiederholen: ein Fokus auf Rechenleistung und KI-Architekturen, aber nicht so sehr auf die Daten, die die Modelle selbst antreiben. Unsere Hypothese ist, dass der nächste massive Engpass der Zugang zu den richtigen Daten ist. Ich wollte eine Daten-Infrastruktur-Schicht aufbauen, die Daten-Sharing sicher, transparent und für Daten-Inhaber und KI-Entwickler gleichermaßen vorteilhaft macht, während auch KI-Daten-spezifisches Fachwissen zur Unterstützung von forschungsgetriebenen KI-Fortschritten bereitgestellt wird. Das führte zu Protege.
Protege beschreibt sich selbst als “Rückgrat der KI-Daten-Wirtschaft”. Wie definieren Sie diese Schicht, und wie sieht wahre Daten-Infrastruktur für KI in der Praxis aus?
Protege ist das Bindeglied, das es Daten-Inhabern und KI-Entwicklern ermöglicht, sicher und effizient zusammenzuarbeiten. Wahre Daten-Infrastruktur für KI tut mehr als nur Daten speichern oder bewegen; sie überprüft die Herkunft, verwaltet Berechtigungen und stellt sicher, dass jeder Datensatz ethisch und mit Zustimmung verwendet wird. In der Praxis ist es eine einzige Plattform, auf der Inhaber von Inhalten Daten zuverlässig lizenzieren und entsprechend entschädigt werden können, und KI-Entwickler auf die entscheidenden Datensätze über Branchen, Domänen, Modalitäten und Formate zugreifen können, die sie benötigen, um Modelle verantwortungsvoll zu trainieren und zu bewerten.
Eines Ihrer Kernziele ist die Sicherstellung, dass Modelle mit lizenzierten, repräsentativen und einvernehmlichen Datensätzen trainiert werden. Wie operationalisiert Protege ethische Beschaffung im großen Maßstab?
Wir operationalisieren Ethik durch Systeme, nicht durch Slogans. Mit jeder Daten- und Inhalt-Quelle, die wir aggregieren und liefern, stellen wir sicher, dass die Rechtsinhaber die Eigentumsrechte mit klaren Lizenzbedingungen und Datenschutzmaßnahmen behalten.
Unsere Plattform kombiniert unsere menschliche, forschungsorientierte Expertise mit Daten-Pipelines und -Systemen, die skaliert werden, um die rechts-geschützten Daten zu liefern. Wir arbeiten auch mit unseren Daten-Abnehmern zusammen, um sicherzustellen, dass die Daten repräsentativ für reale Welt-Bevölkerungen und an reale Welt-Anwendungsfälle angepasst sind. Indem wir sowohl Daten-Lieferanten als auch Daten-Abnehmer mit Klarheit und Konsistenz ansprechen, können wir Compliance, Fairness und Vertrauen aufrechterhalten.
Die KI-Branche wurde lange Zeit von einer “scrape first, ask later”-Mentalität getrieben. Wie sehen Sie transparente Daten-Lizenzierung die Beziehungen zwischen Daten-Anbietern und KI-Entwicklern neu gestalten?
Transparenz verwandelt Extraktion in Zusammenarbeit. Anstatt zu scrappen, haben KI-Unternehmen die Möglichkeit, Daten ethisch von geprüften Daten-Anbietern zu lizenzieren, was bessere Anreize für beide Seiten schafft. Daten-Anbieter gewinnen Einnahmen und Kontrolle, und KI-Entwickler erhalten saubere, hochwertige Datensätze ohne rechtliche und IP-Risiken.
Dieser Wandel schafft Vertrauen, das wiederum die Geschwindigkeit in der KI-Entwicklung beschleunigt. Wenn Organisationen sehen, dass KI verantwortungsvoll mit klarer Zustimmung und Entschädigung für Daten-Rechtsinhaber aufgebaut werden kann, entsteht mehr Vertrauen. Dies schafft mehr Anwendungsfälle und Daten-Bedürfnisse. Dieser natürliche Kreislauf beginnt: Die besten Daten-Quellen ziehen Käufer an, und die Käufer ziehen mehr hochwertige Daten-Quellen an. Jeder profitiert.
Synthetische Daten werden oft als Lösung für Datenschutz- und Bias-Herausforderungen gesehen. Wo sehen Sie die richtige Balance zwischen synthetischen und realen Datensätzen, insbesondere in stark regulierten Branchen wie dem Gesundheitswesen?
Synthetische Daten sind nützlich für Tests und Ergänzungen, aber sie können die volle Nuancen und Komplexität realer Welt-Aktivitäten, die die Trainings- und Evaluierungsdaten erzeugen, nicht vollständig ersetzen. Dies gilt insbesondere im Gesundheitswesen, wo die langfristige Patientenversorgung und die Ergebnisse im Kontext der Versorgungsansätze wichtig sind.
Wir glauben grundlegend, dass KI, die nicht auf die volle Komplexität der realen Welt trainiert wurde, plötzlich nicht in der Lage sein kann, synthetische Daten zu produzieren, die die reale Welt repräsentieren. Wahrscheinlich liegt die richtige Balance in einem hybriden Ansatz, bei dem wir eine Menge nützlicher, hochwertiger Daten-Quellen benötigen, die derzeit isoliert sind und freigeschaltet werden müssen, und diese dann mit KI-generierten synthetischen Daten für bestimmte Anwendungsfälle kombinieren.
Wie ermöglicht Protege es Organisationen, wertvolle reale Daten sicher zu teilen, ohne proprietäre Informationen, Patienten-Daten oder geistiges Eigentum offenzulegen?
Sicherheit und Datenschutz sind in jeden Schritt der Reise integriert. Ob es sich um unsere internen Systeme oder unsere Ent-Identifizierungs- und Datenschutz-Partner handelt, die unsere Daten-Transfers überprüfen, stellen wir sicher, dass unsere Daten innerhalb der beabsichtigten Grenzen bleiben.
Im Gesundheitswesen bedeutet dies die Einhaltung von Datenschutz- und Compliance-Rahmenwerken für alle unsere Daten-Transfers. In den Medien stellt es sicher, dass Inhalte nur für die beabsichtigten Verwendungszwecke und auf vorher vereinbarten Lizenzbedingungen und -laufzeiten lizenziert werden.
Wie werden sich die nächsten Generationen von hochwertigen Trainings-Daten-Pipelines durch die Entwicklung von Grundmodellen definieren?
Drei Prinzipien werden führen: Herkunft, Präzision und Zweck.
Herkunft bedeutet vollständige Rückverfolgbarkeit zur Quelle und den Bedingungen. Präzision bedeutet Kuratierung für spezifische Modalitäten oder Anwendungsfälle anstelle von generischen Daten-Korpora oder Daten, die nicht vollständig die realen Welt-Situationen widerspiegeln. Zweck bedeutet, die Datenauswahl mit realen, konkreten Ergebnissen zu verbinden, nicht nur mit Vanity-Benchmarks.
Zusammen schaffen diese einen Weg, um mit hochwertigen Daten bessere Modelle zu entwickeln.
Wie beeinflussen aufkommende Regulierungen wie der EU-KI-Akt und zukünftige US-Rahmenwerke den Ansatz von Protege zur Einhaltung von Vorschriften und grenzüberschreitender Daten-Zusammenarbeit?
Diese Regulierungen bestätigen unseren Ansatz, auf dem wir das Unternehmen basierten. Sie betonen Transparenz, Herkunft und Risiko-Management, die in unseren Produkten und Plattformen standardmäßig integriert sind.
Wir glauben, dass zukünftige KI-Chancen Rechtsinhaber schützen und strenge Datenschutz-Kontrollen aufrechterhalten müssen. Indem wir diese als nicht verhandelbar behandeln, helfen wir Daten-Partnern und Kunden, mit Zuversicht und Vertrauen in der sich verändernden KI-Landschaft voranzukommen. Unser Ziel ist es, verantwortungsvolle KI-Entwicklung nicht nur zu der richtigen Sache zu machen, sondern auch zu der einfacheren Sache.
Welche Rolle sehen Sie Daten-Transparenz und Herkunft bei der Wiederherstellung des Vertrauens der Öffentlichkeit in KI-Systeme?
Vertrauen beginnt mit Rückverfolgbarkeit. Wenn Menschen verstehen, woher die Daten stammen und wie sie verwendet werden, sind sie eher bereit, KI-Ergebnissen zu vertrauen.
Transparenz und Herkunft schaffen Rechenschaftspflicht vom Daten-Inhaber zum Modell-Entwickler zum Endbenutzer. Sie verwandeln KI aus einer Black-Box in etwas Verständlicheres und Erklärbares.
Nach 20-fachem Wachstum und einer 25-Millionen-Dollar-Serie-A, wie balancieren Sie schnelles Wachstum mit der Aufrechterhaltung der ethischen und Sicherheits-Verpflichtungen von Protege – und was kommt als nächstes, während Sie weiterhin die verantwortungsvolle KI-Modell-Entwicklung von Organisationen prägen?
Ethik und Sicherheit sind die Grundlage, die es uns ermöglicht, zu skalierten. Jeder neue Prozess, jede Partnerschaft und jedes Produkt werden anhand der Maßstäbe gemessen, als ob andere zuschauen würden. Wenn jeder sieht, wie wir operieren und die Entscheidungen treffen, die wir treffen, würde ich wollen, dass sie stolz sind.
Wenn wir auf 2026 blicken, erweitern wir unsere Reichweite in neue Domänen-Bereiche jenseits von Gesundheitswesen und Medien sowie die Schaffung neuer Daten-Produkte wie Evaluierungs-Daten für Benchmarking, da KI-Organisationen danach streben, die KI-Leistung für reale Anwendungsfälle besser zu messen. Unser Ziel ist es, die einzige vertrauenswürdige Plattform für reale KI-Daten und -Expertenwissen zu sein, die für den langfristigen KI-Fortgang aufgebaut ist.
Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Protege besuchen.












