Wywiady
Bobby Samuels, współzałożyciel i CEO Protege – seria wywiadów

Bobby Samuels kieruje strategią i wykonaniem Protege w zakresie produktu, wejścia na rynek i pozyskiwania kapitału. Współzałożył Protege w 2024 roku i pełni funkcję CEO od początku. Pod jego kierownictwem Protege pozyskało 35 milionów dolarów finansowania i osiągnęło 30 milionów dolarów przychodu w pierwszym pełnym roku działalności. Wcześniej Bobby był dyrektorem generalnym Privacy Hub w Datavant, gdzie pomagał napędzać wzrost spółki przed jej połączeniem z Ciox Health w celu utworzenia największej neutralnej sieci danych zdrowotnych w USA. Wcześniej kierował partnerstwami w LiveRamp, gdzie rozwinął umiejętności w budowaniu neutralnych sieci danych. Bobby posiada tytuł MBA ze Stanford Graduate School of Business i tytuł AB z Harvard College, gdzie był prezesem The Harvard Crimson. Przynosi głęboką wiedzę w dziedzinie wymiany danych regulowanych i tłumaczenia złożonej infrastruktury w zaufaną obsługę AI dla partnerów przedsiębiorstw.
Protege to firma zajmująca się infrastrukturą danych, która łączy właścicieli wysoko wartościowych, własnościowych zbiorów danych z deweloperami budującymi modele AI, oferując sposób zarządzania i pierwszeństwo prywatności w udostępnianiu danych szkoleniowych w dużym zakresie. Założona w 2024 roku, platforma koncentruje się na odblokowaniu multimodalnych danych, takich jak rekordy medyczne, obrazy, filmy i dźwięk, które tradycyjnie są trudne do pozyskania przez zespoły AI, jednocześnie dając dostawcom danych pełną kontrolę nad prywatnością, zgodnością i monetyzacją. Dla budowniczych AI, Protege ułatwia odkrywanie i pozyskiwanie za pomocą katalogu i narzędzi do filtrowania i łączenia zbiorów danych, co pomaga przyspieszyć rozwój w sektorach opieki zdrowotnej, mediów i innych. W istocie, firma ma na celu stać się zaufaną warstwą danych dla AI, redukując jeden z największych wąskich gardeł w rozwoju modeli.
Czym skłoniło Cię do założenia Protege, i jak Twoje doświadczenia w kierowaniu danymi, prywatnością i transformacją organizacyjną w Datavant — a także wcześniejsze role w LiveRamp — ukształtowały Twoją wizję budowy?
Moją wizję ukształtowało doświadczenie w Datavant, które pokazało mi zarówno potęgę, jak i złożoność połączenia danych w sposób odpowiedzialny. Datavant zbudował platformę, która pomagała łączyć wrażliwe informacje zdrowotne, zachowując prywatność pacjentów, i stało się dla mnie jasne, że dobrze zarządzane dane mogą napędzać ogromny postęp społeczny. Ale kiedy to nie jest, może to spowodować realną szkodę.
Gdy AI przyspieszyło, zobaczyłem ten sam wzorzec się powtarzający: koncentracja na obliczeniach i architekturach AI, ale nie tyle na danych napędzających same modele. Nasza hipoteza jest taka, że następna ogromna wąska garść jest dostęp do odpowiednich danych. Chciałem zbudować warstwę infrastruktury danych, która sprawia, że udostępnianie danych jest bezpieczne, przejrzyste i wzajemnie korzystne dla posiadaczy danych i budowniczych AI, oraz zapewnia specjalistyczną wiedzę w dziedzinie danych AI, aby wspierać badania napędzające postępy AI. To doprowadziło do Protege.
Protege opisuje siebie jako budującą „kręgosłup gospodarki danych AI”. Jak definiujesz tę warstwę, i co wygląda prawdziwa infrastruktura danych dla AI w praktyce?
Protege jest tkanką łączną, która pozwala właścicielom danych i deweloperom AI współpracować bezpiecznie i efektywnie. Prawdziwa infrastruktura danych dla AI robi coś więcej niż przechowuje lub przenosi dane; weryfikuje pochodzenie, zarządza uprawnieniami i zapewnia, że każdy zbiór danych jest używany etycznie i zgodnie z zezwoleniem. W praktyce jest to pojedyncza platforma, na której posiadacze treści mogą licencjonować dane z pewnością i być odpowiednio wynagradzani, a budowniczy AI mogą uzyskać dostęp do kluczowych zbiorów danych w różnych branżach, dziedzinach, modalnościach i formatach, które są im potrzebne do szkolenia i oceny modeli w sposób odpowiedzialny.
Jedną z Twoich podstawowych misji jest zapewnienie, że modele są szkolone na licencjonowanych, reprezentatywnych i opartych na zgodzie zbiorach danych. Jak Protege operacjonalizuje etyczne źródło na dużą skalę?
Operacjonalizujemy etykę przez systemy, a nie slogany. Z każdym źródłem danych i treści, które agregujemy i dostarczamy, zapewniamy, że posiadacze praw utrzymują własność z wyraźnymi warunkami licencjonowania i ochrony prywatności.
Nasza platforma łączy naszą ludzką, ukierunkowaną na badania wiedzę z potokami danych i systemami, które skalują dostarczanie chronionych prawem danych. Pracujemy również z naszymi klientami, którzy kupują dane, aby upewnić się, że dane są reprezentatywne dla rzeczywistych populacji i odzwierciedlają rzeczywiste przypadki użycia. Poprzez rozwiązanie problemu dostawców i nabywców danych w sposób klarowny i spójny, jesteśmy w stanie utrzymać zgodność, sprawiedliwość i zaufanie.
Branża AI była przez długi czas napędzana mentalnością „wykop pierwszy, pytaj później”. Jak widzisz przejrzyste licencjonowanie danych zmieniające relacje między dostawcami danych a deweloperami AI?
Przejrzystość zmienia ekstrakcję w współpracę. Zamiast wykopywania, firmy AI mają opcję etycznego licencjonowania danych od sprawdzonych dostawców danych, co tworzy lepsze zachęty dla obu stron. Dostawcy danych zyskują dochód i kontrolę, a deweloperzy AI otrzymują czystsze, wyższej jakości zbiory danych bez problemów prawnych i własności intelektualnej.
Ta zmiana buduje zaufanie, które z kolei odblokowuje prędkość w rozwoju AI. Kiedy organizacje widzą, że AI może być budowane w sposób odpowiedzialny z wyraźną zgodą i wynagrodzeniem dla posiadaczy praw danych, odblokowuje to więcej przypadków użycia i potrzeb danych. To tworzy większy popyt na wysokiej jakości zbiory danych, rozpoczynając naturalny efekt kołowy: najlepsze źródła danych przyciągają nabywców, a nabywcy przyciągają więcej źródeł danych o wysokiej wierności. Każdy zyskuje.
Dane syntetyczne są często postrzegane jako rozwiązanie problemów związanych z prywatnością i stronniczością. Gdzie leży odpowiednia równowaga między danymi syntetycznymi a zbiorami danych rzeczywistych, szczególnie w wysoko regulowanych sektorach, takich jak opieka zdrowotna?
Dane syntetyczne są przydatne do testowania i uzupełniania, ale nie mogą całkowicie zastąpić pełnej złożoności i nuansów rzeczywistych działań, które generują dane szkoleniowe i oceny. Jest to szczególnie prawdziwe w opiece zdrowotnej, gdzie długoterminowa historia opieki pacjenta i wyniki w kontekście podejścia do opieki mają znaczenie.
Uważamy, że AI, które nie zostały przeszkolone na pełnej złożoności świata rzeczywistego, nie mogą nagle wytworzyć syntetyczne dane, które są reprezentatywne dla świata rzeczywistego. Prawdopodobnie odpowiednia równowaga będzie podejściem hybrydowym, gdzie będziemy potrzebować dużej ilości bardziej użytecznych, wysokiej jakości źródeł danych, które są obecnie zablokowane i muszą być odblokowane, a następnie połączone z syntetycznymi danymi AI dla konkretnych przypadków użycia.
Jak Protege umożliwia organizacjom udostępnianie cennych danych rzeczywistych w sposób bezpieczny, bez ujawniania informacji własnościowych, danych pacjentów lub własności intelektualnej?
Bezpieczeństwo i prywatność są wbudowane w każdy etap podróży. Niezależnie od tego, czy jest to nasze wewnętrzne systemy, czy nasze partnerstwa w zakresie identyfikacji i ochrony prywatności, które weryfikują nasze transfery danych, zapewniamy, że nasze dane pozostają w granicach zamierzonych.
W opiece zdrowotnej oznacza to zgodność z ramami prywatności i zgodności dla wszystkich naszych transferów danych. W mediach oznacza to zapewnienie, że zawartość jest licencjonowana tylko do zamierzonych przypadków użycia na wcześniej uzgodnionych warunkach licencjonowania i okresach.
Jak rozwój modeli podstawowych wpłynie na określenie następnego pokolenia wysokiej jakości potoków danych szkoleniowych?
Trzy zasady będą przewodniczyć: pochodzenie, precyzja i cel.
Pochodzenie oznacza pełną śledzę do źródła i warunków. Precyzja oznacza kurację dla konkretnych modalności lub przypadków użycia, a nie ogólnych korpusów danych lub danych, które nie są w pełni odzwierciedleniem sytuacji rzeczywistych. Cel oznacza wyrównanie wyboru danych z rzeczywistymi, konkretnymi wynikami, a nie tylko wskaźnikami próżności.
Wszystko to razem tworzy ścieżkę do korzystania z wysokiej jakości danych w celu napędzania lepszych modeli.
Jak wschodzące regulacje, takie jak akt AI UE i nadchodzące ramy amerykańskie, wpływają na podejście Protege do zgodności i współpracy transgranicznej w zakresie danych?
Te regulacje potwierdzają nasze podejście, które oparliśmy na założeniu firmy. Podkreślają one przejrzystość, pochodzenie i zarządzanie ryzykiem, które są wbudowane w nasze produkty i platformę domyślnie.
Uważamy, że przyszłe możliwości AI muszą chronić posiadaczy praw i utrzymywać ścisłą kontrolę prywatności. Poprzez traktowanie tych jako niezaprzeczalnych, pomagamy partnerom danych i klientom poruszać się z ufnością i zaufaniem w ciągle zmieniającym się krajobrazie AI. Naszym celem jest uczynienie odpowiedzialnego rozwoju AI nie tylko słuszną rzeczą do zrobienia, ale także łatwiejszą rzeczą do zrobienia.
Jaką rolę widzisz w przebudowie zaufania publicznego w systemach AI?
Zaufanie zaczyna się od śledzenia. Kiedy ludzie rozumieją, skąd pochodzą dane i jak są używane, są bardziej skłonni ufać wynikom AI.
Przejrzystość i pochodzenie tworzą odpowiedzialność od właściciela danych do dewelopera modelu do użytkownika końcowego. Zmieniają AI z czarnej skrzynki w coś bardziej zrozumiałego i wyjaśnialnego.
Po 20-krotnym wzroście i serii A o wartości 25 milionów dolarów, jak równoważysz szybkie skalowanie z utrzymaniem zobowiązań etycznych i bezpieczeństwa Protege — i co jest następne, gdy kontynuujesz kształtowanie, w jaki sposób organizacje szkolą modele AI w sposób odpowiedzialny?
Etyka i bezpieczeństwo są fundamentem, który pozwala nam skalować. Każdy nowy proces, partnerstwo i produkt są mierzone pod kątem działania, jakby inni nas obserwowali. Gdyby wszyscy widzieli, jak działamy i jakie decyzje podejmujemy, chciałbym, aby byli z tego dumni.
W nadchodzącym 2026 roku rozwijamy nasz zasięg do nowych obszarów poza opieką zdrowotną i mediami, a także tworzymy nowe produkty danych, takie jak dane oceny do benchmarkingu, gdy organizacje AI dążą do lepszego pomiaru wydajności AI dla przypadków użycia w świecie rzeczywistym. Naszym celem jest być jedną zaufaną platformą dla danych AI i wiedzy, zbudowaną, aby napędzać postępy AI na dłuższą metę.
Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Protege.












