Wywiady
Bobby Samuels, współzałożyciel i dyrektor generalny Protege – seria wywiadów

Bobby Samuels kieruje strategią i realizacją Protege w zakresie produktu, wprowadzania na rynek i akumulacji kapitału. Jest współzałożycielem Protege w 2024 roku i od początku pełni funkcję dyrektora generalnego. Pod jego kierownictwem Protege pozyskało 35 milionów dolarów finansowania i osiągnęło 30 milionów dolarów GMV w pierwszym pełnym roku działalności. Wcześniej Bobby był dyrektorem generalnym Privacy Hub w Datavant, gdzie pomógł napędzać wzrost firmy prowadzący do jej fuzji z Ciox Health o wartości 7.0 miliardów dolarów w celu stworzenia największego neutralnego ekosystemu danych zdrowotnych w USA. Wcześniej kierował partnerstwami w LiveRamp, gdzie zdobył wiedzę specjalistyczną w zakresie budowania neutralnych sieci danych. Bobby posiada tytuł MBA ze Stanford Graduate School of Business i AB z Harvard College, gdzie był prezesem The Harvard Crimson. Wnosi głęboką wiedzę specjalistyczną w zakresie regulowanej wymiany danych i przekładania złożonej infrastruktury na zaufane możliwości sztucznej inteligencji dla partnerów korporacyjnych.
Protegowany to firma zajmująca się infrastrukturą danych, która łączy właścicieli wartościowych, zastrzeżonych zbiorów danych z deweloperami tworzącymi modele AI, oferując kontrolowany i dbający o prywatność sposób licencjonowania i dostępu do danych szkoleniowych na dużą skalę. Założona w 2024 roku platforma koncentruje się na odblokowywaniu danych multimodalnych – takich jak dokumentacja medyczna, obrazowanie, wideo i audio – które tradycyjnie trudno pozyskać zespołom AI, jednocześnie dając dostawcom danych pełną kontrolę nad prywatnością, zgodnością z przepisami i monetyzacją. Dla twórców AI, Protege usprawnia wyszukiwanie i pozyskiwanie danych dzięki starannie dobranemu katalogowi oraz narzędziom do filtrowania i łączenia zbiorów danych, przyspieszając rozwój w sektorze opieki zdrowotnej, mediów i innych sektorach. W istocie, firma dąży do stania się zaufaną warstwą danych dla AI, redukując jedno z największych wąskich gardeł w nowoczesnym rozwoju modeli.
Co zainspirowało Cię do założenia Protege i w jaki sposób Twoje doświadczenia w kierowaniu inicjatywami dotyczącymi danych, prywatności i transformacji organizacyjnej w Datavant — a także wcześniejsze role w LiveRamp — ukształtowały Twoją wizję rozwoju tej firmy?
Moje doświadczenie w Datavant pokazało mi zarówno potencjał, jak i złożoność odpowiedzialnego łączenia danych na dużą skalę. Datavant zbudował platformę, która pomogła połączyć wrażliwe informacje medyczne, zachowując jednocześnie prywatność pacjentów. Uświadomiłem sobie, że dobrze zarządzane dane mogą napędzać ogromny postęp społeczny. Ale gdy tak się nie dzieje, mogą wyrządzić realne szkody.
Wraz z przyspieszeniem rozwoju sztucznej inteligencji (AI) zauważyłem powtarzający się schemat: koncentrację na architekturze obliczeniowej i sztucznej inteligencji (AI), a nie na danych napędzających same modele. Nasza hipoteza zakłada, że kolejnym poważnym wąskim gardłem będzie dostęp do odpowiednich danych. Chciałem zbudować warstwę infrastruktury danych, która zapewni bezpieczne, transparentne i korzystne dla obu stron udostępnianie danych zarówno ich posiadaczom, jak i twórcom AI, a jednocześnie zapewni specjalistyczną wiedzę z zakresu danych AI, wspierającą rozwój AI oparty na badaniach. To właśnie doprowadziło do powstania Protege.
Protege opisuje siebie jako budującego „kręgosłup gospodarki danych AI”. Jak definiuje Pan tę warstwę i jak w praktyce wygląda prawdziwa infrastruktura danych dla AI?
Protege to tkanka łączna, która umożliwia bezpieczną i efektywną współpracę właścicieli danych i twórców AI. Prawdziwa infrastruktura danych dla AI oferuje więcej niż tylko przechowywanie i przenoszenie danych; weryfikuje ich pochodzenie, zarządza uprawnieniami i zapewnia, że każdy zbiór danych jest wykorzystywany etycznie i za zgodą. W praktyce jest to pojedyncza platforma, na której właściciele treści mogą bez obaw licencjonować dane i otrzymywać odpowiednie wynagrodzenie, a twórcy AI mają dostęp do kluczowych zbiorów danych z różnych branż, dziedzin, modalności i formatów, które są im potrzebne do odpowiedzialnego trenowania i ewaluacji modeli.
Jednym z Twoich głównych zadań jest zapewnienie, że modele są trenowane na licencjonowanych, reprezentatywnych i opartych na zgodzie zbiorach danych. W jaki sposób Protege wdraża etyczne pozyskiwanie na dużą skalę?
Wdrażamy etykę poprzez systemy, a nie slogany. W przypadku każdego źródła danych i treści, które agregujemy i dostarczamy, dbamy o to, aby właściciele praw zachowali prawa własności, stosując jasne warunki licencyjne i ochronę prywatności.
Nasza platforma łączy nasze ludzkie, zorientowane na badania doświadczenie z potokami danych i systemami, które skalują się, aby dostarczać dane chronione prawami. Współpracujemy również z naszymi klientami kupującymi dane, aby zapewnić, że dane są reprezentatywne dla rzeczywistych populacji i odzwierciedlają rzeczywiste przypadki użycia. Dzięki jasnemu i spójnemu podejściu zarówno do dostawców, jak i nabywców danych, jesteśmy w stanie zachować zgodność z przepisami, uczciwość i zaufanie.
Branża AI od dawna kieruje się zasadą „najpierw zbieraj, potem pytaj”. Jak, Twoim zdaniem, transparentne licencjonowanie danych zmieni relacje między dostawcami danych a twórcami AI?
Przejrzystość przekształca ekstrakcję we współpracę. Zamiast scrapowania, firmy zajmujące się sztuczną inteligencją mają możliwość etycznego licencjonowania danych od sprawdzonych dostawców danych, co stwarza lepsze zachęty dla obu stron. Dostawcy danych zyskują przychody i kontrolę, a twórcy sztucznej inteligencji otrzymują czystsze, wyższej jakości zbiory danych bez konieczności dbania o kwestie prawne i własności intelektualnej.
Ta zmiana buduje zaufanie, które z kolei przyspiesza rozwój sztucznej inteligencji. Kiedy organizacje dostrzegają, że sztuczną inteligencję można rozwijać w sposób odpowiedzialny, z wyraźną zgodą i wynagrodzeniem dla właścicieli praw do danych, otwiera to nowe możliwości zastosowań i zaspokaja potrzeby w zakresie danych. To z kolei zwiększa zapotrzebowanie na wysokiej jakości zbiory danych, uruchamiając naturalny mechanizm: najlepsze źródła danych przyciągają nabywców, a nabywcy przyciągają źródła danych o wysokiej wierności. Korzyści odnoszą wszyscy.
Dane syntetyczne są często postrzegane jako rozwiązanie problemów związanych z prywatnością i stronniczością. Jak myślisz, gdzie leży właściwa równowaga między syntetycznymi a rzeczywistymi zbiorami danych, zwłaszcza w silnie regulowanych sektorach, takich jak opieka zdrowotna?
Dane syntetyczne są przydatne do testowania i rozszerzania, ale nie mogą całkowicie zastąpić pełnego spektrum niuansów i złożoności rzeczywistych działań, które generują dane szkoleniowe i ewaluacyjne. Jest to szczególnie istotne w opiece zdrowotnej, gdzie długoterminowa historia i wyniki leczenia pacjenta w kontekście podejścia terapeutycznego mają duże znaczenie.
Jesteśmy głęboko przekonani, że sztuczna inteligencja, która nie została wyszkolona w zakresie pełnej złożoności świata rzeczywistego, nie będzie nagle w stanie generować syntetycznych danych, które odzwierciedlałyby rzeczywistość. Prawdopodobnie właściwym rozwiązaniem będzie podejście hybrydowe, w którym będziemy potrzebować mnóstwa bardziej użytecznych, wysokiej jakości źródeł danych, które obecnie są odizolowane i wymagają odblokowania, a następnie połączenia ich z syntetycznymi danymi generowanymi przez sztuczną inteligencję dla konkretnych przypadków użycia.
W jaki sposób Protege umożliwia organizacjom bezpieczne udostępnianie cennych danych ze świata rzeczywistego, bez narażania informacji zastrzeżonych, danych pacjentów ani własności intelektualnej?
Bezpieczeństwo i prywatność są nieodłączną częścią każdego etapu podróży. Niezależnie od tego, czy odbywa się to za pośrednictwem naszych wewnętrznych systemów, czy też naszych partnerów ds. anonimizacji i prywatności, którzy weryfikują nasze transfery danych, dbamy o to, aby nasze dane pozostały w wyznaczonych granicach.
W ochronie zdrowia oznacza to przestrzeganie ram ochrony prywatności i zgodności z przepisami w odniesieniu do wszystkich transferów danych. W mediach oznacza to zapewnienie, że treści są licencjonowane wyłącznie do zamierzonych zastosowań, na wcześniej uzgodnionych warunkach licencyjnych i okresach obowiązywania.
Wraz z rozwojem modeli fundamentalnych, co zdefiniuje następną generację wysokiej jakości systemów przetwarzania danych szkoleniowych?
Podstawą będą trzy zasady: pochodzenie, precyzja i cel.
Pochodzenie oznacza pełną identyfikowalność źródła i terminów. Precyzja oznacza selekcję pod kątem konkretnych modalności lub przypadków użycia, a nie generyczny korpus danych – lub dane, które nie odzwierciedlają w pełni rzeczywistych sytuacji. Cel oznacza dostosowanie wyboru danych do rzeczywistych, konkretnych rezultatów, a nie tylko do próżnych wzorców.
Razem tworzą one ścieżkę prowadzącą do wykorzystania wysokiej jakości danych w celu tworzenia lepszych modeli.
W jaki sposób nowe regulacje, takie jak ustawa UE o sztucznej inteligencji i nadchodzące ramy prawne USA, wpływają na podejście Protege do kwestii zgodności i transgranicznej współpracy w zakresie danych?
Przepisy te potwierdzają nasze podejście, na którym zbudowaliśmy firmę. Podkreślają one przejrzystość, pochodzenie i zarządzanie ryzykiem, które są domyślnie wpisane w nasze produkty i platformę.
Wierzymy, że przyszłe możliwości AI muszą chronić właścicieli praw i zapewniać ścisłą kontrolę prywatności. Traktując te kwestie jako niepodlegające negocjacjom, pomagamy partnerom danych i klientom rozwijać się z pewnością siebie i zaufaniem w ciągle zmieniającym się krajobrazie AI. Naszym celem jest, aby odpowiedzialny rozwój AI był nie tylko właściwy, ale i łatwiejszy do wdrożenia.
Jaką rolę, według Ciebie, odegra przejrzystość i pochodzenie danych w odbudowie zaufania publicznego do systemów sztucznej inteligencji?
Zaufanie zaczyna się od możliwości śledzenia. Kiedy ludzie rozumieją, skąd pochodzą dane i jak są wykorzystywane, chętniej ufają wynikom sztucznej inteligencji.
Przejrzystość i pochodzenie zapewniają rozliczalność od właściciela danych, przez twórcę modelu, po użytkownika końcowego. Dzięki temu sztuczna inteligencja zmienia się z czarnej skrzynki w coś bardziej zrozumiałego i dającego się wyjaśnić.
Po 20-krotnym wzroście i pozyskaniu 25 mln dolarów serii A, w jaki sposób udaje się Państwu zachować równowagę między szybką skalowalnością a utrzymaniem zobowiązań etycznych i bezpieczeństwa Protege? Jakie są kolejne kroki w kierunku kształtowania sposobu, w jaki organizacje odpowiedzialnie szkolą modele AI?
Etyka i bezpieczeństwo to fundamenty, które pozwalają nam się rozwijać. Każdy nowy proces, partnerstwo i produkt oceniamy pod kątem działania tak, jakby inni nas obserwowali. Gdyby wszyscy widzieli, jak działamy i jakie decyzje podejmujemy, chciałbym, żeby byli dumni.
Z myślą o roku 2026 rozszerzamy nasz zasięg na nowe obszary wykraczające poza opiekę zdrowotną i media, a także tworzymy nowe produkty danych, takie jak dane ewaluacyjne do benchmarkingu, ponieważ organizacje zajmujące się sztuczną inteligencją dążą do lepszego pomiaru wydajności AI w rzeczywistych zastosowaniach. Naszym celem jest bycie jedyną zaufaną platformą dla rzeczywistych danych i wiedzy eksperckiej z zakresu sztucznej inteligencji, stworzoną z myślą o długofalowym rozwoju AI.
Dziękuję za wspaniały wywiad. Czytelnicy chcący dowiedzieć się więcej powinni odwiedzić nas Protegowany.












