Haastattelut
Bobby Samuels, Protegen perustaja ja toimitusjohtaja – Haastattelusarja

Bobby Samuels johtaa Protegen strategiaa ja toimeenpanoa tuotteiden, markkinoinnin ja pääomien muodostamisessa. Hän perusti Protegen vuonna 2024 ja on toiminut sen johdossa perustamisesta lähtien. Hänen johdollaan Protege on kerännyt 35 miljoonan dollarin rahoituksen ja laajentunut 30 miljoonan dollarin liikevaihtoon ensimmäisenä toimintavuotenaan. Aikaisemmin Bobby toimi Datavantin Privacy Hubin yleispäällikkönä, jossa hän auttoi yrityksen kasvussa sen 7,0 miljardin dollarin fuusiota Ciox Healthin kanssa, josta tuli Yhdysvaltain suurin terveydenhuollon dataympäristö. Aikaisemmin hän johti kumppanuuksia LiveRampissa, jossa hän kehitti asiantuntemusta rakentamalla neutraaleja dataverkkoja. Bobby on suorittanut MBA-tutkinnon Stanfordin yliopiston kauppakorkeakoulussa ja AB-tutkinnon Harvard Collegessa, jossa hän toimi Harvard Crimsonin puheenjohtajana. Hän tuo syvää asiantuntemusta säädellystä data-vaihdosta ja monimutkaisen infrastruktuurin kääntämisestä luotettavaksi AI-käyttöön yritysten kumppaneille.
Protege on data-infrastruktuuriyhtiö, joka yhdistää korkean arvon omaavien, omistajiensa omistamien tietojoukkojen omistajat AI-malleja kehittäville kehittäjille, tarjoten hallitun ja yksityisyyttä ensisijaisesti lisensointi- ja pääsytietojen käyttöön laajassa mittakaavassa. Perustettu vuonna 2024, alusta keskittyy lukittujen multimodaalisten tietojen avaamiseen, kuten terveydenhuollon tietoja, kuvia, videoita ja ääniä, jotka ovat perinteisesti vaikeita AI-tiimien hankkia, ja antaa tietojen omistajille täydellisen hallinnan yksityisyyden, vaatimustenmukaisuuden ja rahoituksen suhteen. AI-kehittäjille Protege sujuvoittaa löytämistä ja hankintaa kohdennetun luokan ja työkalujen avulla tietojoukkoja suodattamiseen ja yhdistämiseen, auttaen nopeuttamaan kehitystä terveydenhuollon, median ja muiden alojen osalla. Ydinasiassa yritys pyrkii olemaan luotettu datataso AI:lle, vähentämällä yhtä suurinta pullonkaulaa modernissa mallikehityksessä.
Mikä innoitti sinua perustamaan Protegen, ja miten kokemuksesi johtamisesta dataa, yksityisyyttä ja organisaatiomuutosten aloitteita Datavantissa — sekä aikaisemmat roolit LiveRampissa — muokkasivat visiota rakentaa se?
Kokemukseni Datavantissa osoitti minulle sekä datan yhdistämisen voiman että sen monimutkaisuuden laajassa mittakaavassa. Datavant rakensi alustan, joka auttoi linkittämään herkkää terveydenhuollon tietoa säilyttäen potilaiden yksityisyyden, ja selvisi minulle, että hyvin hallitut tiedot voivat ajaa massiivista yhteiskunnallista edistystä. Mutta kun se ei ole, se voi aiheuttaa todellista vahinkoa.
Kun AI kiihdyi, näin saman kaavan toistuvan: keskittyminen laskentaan ja AI-arkkitehtuureihin, mutta ei niin paljon itse datan kehittämiseen. Hypoteesimme on, että seuraava massiivinen pullonkaula on pääsy oikeaan dataan. Halusin rakentaa data-infrastruktuurin, joka tekee data-jakamisesta turvallisen, avoimen ja vastavuoroisesti hyödyllisen sekä data-omistajille että AI-kehittäjille, ja tarjoaa myös AI-dataan liittyvää asiantuntemusta tukemaan tutkimusperäistä AI-edistystä. Se johti Protegen perustamiseen.
Protege kuvaa itseään “AI-datan talouden selkärangaksi.” Miten määrittelet tämän kerroksen, ja mitä todellinen data-infrastruktuuri AI:lle näyttää käytännössä?
Protege on sidekudos, joka antaa data-omistajien ja AI-kehittäjien turvallisen ja tehokkaan yhteistyön. Todellinen data-infrastruktuuri AI:lle tekee enemmän kuin vain tallentaa tai siirtää dataa; se vahvistaa alkuperän, hallitsee lupia ja varmistaa, että jokainen tietojoukko käytetään eettisesti ja suostumuksella. Käytännössä se on yksittäinen alusta, jossa sisällön omistajat voivat lisensointiin luottaa ja saada oikein korvauksen, ja AI-kehittäjät voivat päästä kriittisiin tietojoukkoihin eri aloilla, domeeneilla, modaalisuuksilla ja muodoilla, joita he tarvitsevat mallien kouluttamiseen ja arviointiin vastuullisesti.
Yksi teidän tärkeimmistä tehtävistänne on varmistaa, että mallit koulutetaan lisensoituilla, edustavilla ja suostumusperustaisilla tietojoukoilla. Miten Protege toteuttaa eettisen hankinnan laajassa mittakaavassa?
Toimimme eettisyyden kautta järjestelmin, ei iskulausein. Jokaisen datan ja sisällön lähteen kanssa, jonka keräämme ja toimittamme, varmistamme, että oikeudenomistajat ylläpitävät omistusta selkeiden lisensointiehtojen ja yksityisyydensuojan kanssa
Alustamme yhdistää inhimillisen, tutkimusorientoituneen asiantuntemuksen data-pipelinesiin ja järjestelmiin, jotka skaalautuvat toimittamaan oikeuksin suojattua dataa. Työskentelemme myös asiakkaiden kanssa varmistaaksemme, että data on edustavaa maailman todellisista tilanteista ja heijastaa todellisia käyttötapauksia. Käsittelymme sekä data-toimittajia että data-ostajia avoimuuden ja johdonmukaisuuden kanssa mahdollistaa vaatimustenmukaisuuden, reiluuden ja luottamuksen ylläpitämisen.
AI-teollisuus on perinteisesti ollut “kaiva ensin, kysy myöhemmin” -mentaliteetin mukainen. Miten näet avoimen datalisensoinnin muuttavan suhteita data-toimittajien ja AI-kehittäjien välillä?
Avoimuus muuttaa kaivamisen yhteistyöksi. Sen sijaan, että AI-yritykset kaivaisivat dataa, heillä on nyt mahdollisuus lisensointiin datan omistajilta, mikä luo paremmat kannustimet molemmille puolille. Data-toimittajat saavat tulon ja hallinnan, ja AI-kehittäjät saavat puhtaampia, laadukkaampia tietoja ilman oikeudellisia ja immateriaalioikeudellisia ongelmia.
Tämä muutos luo luottamusta, joka puolestaan vapauttaa nopeuden AI-kehityksessä. Kun organisaatiot näkevät, että AI voidaan rakentaa vastuullisesti selkeällä suostumuksella ja korvauksella data-oikeuksien omistajille, se vapauttaa enemmän käyttötapauksia ja dataa. Tämä luo enemmän kysyntää laadukkaille tietojoukoille, mikä käynnistää luonnollisen pyörän: parhaat data-lähteet houkuttelevat ostajia, ja ostajat houkuttelevat enemmän korkealaatuisia data-lähteitä. Kaikki hyötyvät.
Synteettinen data nähdään usein ratkaisuna yksityisyyden ja puolueettomuuden haasteisiin. Missä näet oikean tasapainon olevan synteettisen ja todellisen datan välillä, erityisesti säännellyillä aloilla kuten terveydenhuollossa?
Synteettinen data on hyödyllistä testaamiseen ja täydentämiseen, mutta se ei voi korvata kokonaan todellisen maailman toimien monimutkaisuutta ja yksityiskohtaisuutta, jotka luovat koulutus- ja arviointidataa. Tämä on erityisen totta terveydenhuollossa, jossa potilaiden pitkäaikaisen hoidon historia ja tulokset hoitotoimenpiteiden yhteydessä ovat tärkeitä.
Uskomme, että oikea tasapaino tulee olla hybridiratkaisu, jossa yhdistämme paljon hyödyllisiä, laadukkaita data-lähteitä, jotka ovat tällä hetkellä eristyneitä ja tarvitsevat avaamista, ja yhdistämme ne AI:lla generoituun synteettiseen dataan tiettyjen käyttötapauksien osalta.
Miten Protege mahdollistaa organisaatioille jakaa arvokkaita todellisia tietoja turvallisesti ilman, että he altistavat omistajiensa tietoja, potilastietoja tai immateriaalioikeuksia?
Turva ja yksityisyyden suoja ovat kaiken prosessin osa. Olipa kyseessä sisäiset järjestelmämme tai yksityisyyden suojaa varmistavat kumppanuuksiemme, jotka vahvistavat datasiirroksiamme, varmistamme, että datamme pysyy tarkoitetuissa rajoissa.
Terveydenhuollossa tämä tarkoittaa noudattamista yksityisyyden ja vaatimustenmukaisuuden kehyksistä kaikissa datasiirroksissamme. Medialla se tarkoittaa varmistamista, että sisältö on lisensoitu vain sille tarkoitetuille käyttötarkoituksille ennalta sovittujen lisensointiehtojen ja -ajojen mukaisesti.
Perussääntöjen jatkuessa, mitkä tekijät määrittävät seuraavan sukupolven korkealaatuisten koulutusdatavirtojen?
Kolme periaatetta johdattelee: alkuperä, tarkkuus ja tarkoitus.
Alkuperä tarkoittaa täydellistä jäljitettävyyttä lähteeseen ja ehtoihin. Tarkkuus tarkoittaa kuraattorin valintaa tietyille modaalisuuksille tai käyttötapauksille eikä yleisiä datakokoelmia tai dataa, joka ei heijasta todellisia tilanteita. Tarkoitus tarkoittaa datan valinnan kohdistamista konkreettisiin tuloksiin, eikä vain ulkonäön mittareihin.
Nämä yhdessä luovat polun parempien mallien kehittämiseen korkealaatuisten datojen avulla.
Miten nousussa olevat säännökset, kuten EU:n AI-laki ja tulevat Yhdysvaltain kehykset, vaikuttavat Protegen lähestymistapaan noudattamiseen ja rajat ylittävään data-yhteistyöhön?
Nämä säännökset vahvistavat lähestymistapaa, jolle perustimme yrityksen. Ne korostavat avoimuutta, alkuperää ja riskien hallintaa, jotka on sisäänrakennettu tuotteisiimme ja alustoihimme oletusarvoisesti.
Uskomme, että tulevaisuuden AI-mahdollisuuksien on suojattava oikeuksien omistajia ja ylläpidettävä tiukkoja yksityisyyden suojausjärjestelmiä. Käsitellessämme nämä asiat ehdottomina, autamme data-kumppaneita ja asiakkaitamme etenemään luottamuksella ja varmuudella muuttuvassa AI-maailmassa. Tavoitteemme on tehdä vastuullisesta AI-kehityksestä ei vain oikea asia, vaan myös helpompi tapa toimia.
Mikä rooli näet datan avoimuudella ja alkuperällä olevan julkisen luottamuksen uudelleenrakentamisessa AI-järjestelmissä?
Luottamus alkaa jäljitettävyydestä. Kun ihmiset ymmärtävät, mistä data tulee ja miten sitä käytetään, he ovat todennäköisemmin luottavaisia AI-tuloksiin.
Avoimuus ja alkuperä luo vastuun data-omistajasta mallin kehittäjään ja loppukäyttäjään. Ne muuttavat AI:n mustasta laatikosta ymmärrettävämmäksi ja selitettävämmäksi.
20-kertaisen kasvun ja 25 miljoonan dollarin Series A -rahoituksen jälkeen, miten tasapainotat nopean laajentumisen Protegen eettisten ja turvallisuus sitoumusten kanssa — ja mitä seuraavaksi, kun jatkat muokkaamista, miten organisaatiot kouluttavat AI-malleja vastuullisesti?
Etiikka ja turvallisuus ovat perusta, joka mahdollistaa laajentumisen. Jokainen uusi prosessi, kumppanuus ja tuote mitataan toimimalla niin, että muut voivat tarkkailla. Jos kaikki näkisivät, miten toimimme ja mitä päätöksiä teimme, haluaisin, että he olisivat ylpeitä.
Edetessämme vuoteen 2026 laajennamme ulottuvuuttamme uusiin aloihin terveydenhuollon ja median ulkopuolelle, sekä luomme uusia data-tuotteita, kuten arviointidataa benchmarkkaamiseen, kun AI-organisaatiot pyrkivät parantamaan AI-suorituskykyä todellisissa käyttötapauksissa. Tavoitteemme on olla yksittäinen luotettu alusta todellisille AI-tiedoille ja asiantuntemukselle, joka on rakennettu voimaan AI-edistystä pitkällä aikavälillä. Thank you for the great interview, readers who wish to learn more should visit Protege.












