Wawancara
Bobby Samuels, Co-Founder dan CEO Protege – Seri Wawancara

Bobby Samuels memimpin strategi dan eksekusi Protege di seluruh produk, go-to-market, dan pembentukan modal. Ia adalah co-founder Protege pada tahun 2024 dan telah menjabat sebagai CEO sejak awal. Di bawah kepemimpinannya, Protege telah mengumpulkan $35M dalam pendanaan dan berkembang menjadi $30M dalam GMV pada tahun pertama penuh operasional. Sebelumnya, Bobby adalah General Manager of Privacy Hub di Datavant, di mana ia membantu mengarahkan pertumbuhan perusahaan hingga merger senilai $7,0B dengan Ciox Health untuk menciptakan ekosistem data kesehatan netral terbesar di AS. Sebelumnya, ia memimpin kemitraan di LiveRamp, di mana ia mengembangkan keahlian dalam membangun jaringan data netral. Bobby memegang gelar M.B.A. dari Stanford Graduate School of Business dan A.B. dari Harvard College, di mana ia menjabat sebagai Presiden The Harvard Crimson. Ia membawa keahlian yang mendalam dalam pertukaran data yang diatur dan menerjemahkan infrastruktur yang kompleks menjadi pengaktifan AI yang dipercaya untuk mitra perusahaan.
Protege adalah perusahaan infrastruktur data yang menghubungkan pemilik dataset propietary berharga dengan pengembang yang membangun model AI, menawarkan cara yang dikelola dan privasi-terlebih-dahulu untuk melisensikan dan mengakses data pelatihan skala besar. Didirikan pada tahun 2024, platform ini fokus pada membuka kunci data multimodal—seperti catatan medis, citra, video, dan audio—yang secara tradisional sulit untuk AI tim untuk sumber, sambil memberikan penyedia data kontrol penuh atas privasi, kepatuhan, dan monitisasi. Untuk pembangun AI, Protege mempermudah penemuan dan akuisisi melalui katalog yang dikurasi dan alat untuk menyaring dan menggabungkan dataset, membantu mempercepat pengembangan di seluruh sektor kesehatan, media, dan lainnya. Pada intinya, perusahaan ini bertujuan untuk menjadi lapisan data yang dipercaya untuk AI, mengurangi salah satu bottleneck terbesar dalam pengembangan model modern.
Apa yang menginspirasi Anda untuk mendirikan Protege, dan bagaimana pengalaman Anda memimpin data, privasi, dan inisiatif transformasi organisasi di Datavant — serta peran sebelumnya di LiveRamp — membentuk visi Anda untuk membangunnya?
Pengalaman saya di Datavant menunjukkan kepada saya baik kekuatan maupun kompleksitas menghubungkan data secara bertanggung jawab skala besar. Datavant membangun platform yang membantu menghubungkan informasi kesehatan sensitif sambil mempertahankan privasi pasien, dan menjadi jelas bagi saya bahwa data yang dikelola dengan baik dapat mengarahkan kemajuan sosial besar. Namun, ketika itu tidak, itu dapat menyebabkan kerusakan nyata.
Ketika AI dipercepat, saya melihat pola yang sama berulang: fokus pada komputasi dan arsitektur AI, tetapi tidak banyak pada data yang mengarahkan model itu sendiri. Hipotesis kami adalah bahwa bottleneck besar berikutnya adalah akses ke data yang tepat. Saya ingin membangun lapisan infrastruktur data yang membuat berbagi data aman, transparan, dan saling menguntungkan bagi pemegang data dan pembangun AI, serta menyediakan keahlian data AI khusus untuk mendukung kemajuan AI yang didorong oleh penelitian. Itulah yang mengarah ke Protege.
Protege menjelaskan dirinya sebagai membangun “tulang punggung ekonomi data AI.” Bagaimana Anda mendefinisikan lapisan ini, dan apa yang tampak seperti infrastruktur data sebenarnya untuk AI dalam praktek?
Protege adalah jaringan yang menghubungkan pemilik data dan pengembang AI untuk berkolaborasi dengan aman dan efisien. Infrastruktur data sebenarnya untuk AI melakukan lebih dari sekadar menyimpan atau memindahkan data; itu memverifikasi provenance, mengelola izin, dan memastikan bahwa setiap dataset digunakan secara etis dan dengan persetujuan. Dalam praktek, ini adalah platform tunggal di mana pemegang konten dapat melisensikan data dengan percaya diri dan dibayar dengan tepat, dan pembangun AI dapat mengakses dataset kritis di seluruh industri, domain, modalitas, dan format yang mereka butuhkan untuk melatih dan mengevaluasi model dengan bertanggung jawab.
Salah satu misi inti Anda adalah memastikan model dilatih pada dataset yang dilisensikan, representatif, dan berbasis persetujuan. Bagaimana Protege mengoperasikan sumber etis skala besar?
Kami mengoperasikan etika melalui sistem, bukan slogan. Dengan setiap sumber data dan konten yang kami agregasi dan kirim, kami memastikan bahwa pemegang hak cipta mempertahankan kepemilikan dengan syarat lisensi dan perlindungan privasi yang jelas
Platform kami menggabungkan keahlian manusia, penelitian-berorientasi kami dengan pipa data dan sistem yang dapat diskalakan untuk mengirimkan data yang dilindungi hak cipta. Kami juga bekerja dengan pelanggan pembeli data kami untuk memastikan bahwa data tersebut representatif dari populasi dunia nyata dan reflektif dari kasus penggunaan dunia nyata. Dengan menangani baik penyedia data dan pembeli data dengan kejelasan dan konsistensi, kami dapat mempertahankan kepatuhan, keadilan, dan kepercayaan.
Industri AI telah lama didorong oleh mentalitas “scrape first, ask later”. Bagaimana Anda melihat lisensi data transparan mengubah hubungan antara penyedia data dan pengembang AI?
Transparansi mengubah ekstraksi menjadi kolaborasi. Sebagai gantinya meng-scrape, perusahaan AI memiliki pilihan untuk melisensikan data secara etis dari penyedia data yang diverifikasi, yang menciptakan insentif yang lebih baik untuk kedua belah pihak. Penyedia data memperoleh pendapatan dan kontrol, dan pengembang AI mendapatkan dataset yang lebih bersih dan berkualitas tinggi tanpa masalah hukum dan IP.
Perubahan ini membangun kepercayaan, yang pada gilirannya membuka kecepatan dalam pengembangan AI. Ketika organisasi melihat bahwa AI dapat dibangun secara bertanggung jawab dengan persetujuan dan kompensasi yang jelas untuk pemegang hak cipta, ini membuka lebih banyak kasus penggunaan dan kebutuhan data. Ini menciptakan permintaan yang lebih besar untuk dataset berkualitas tinggi, memulai roda yang alami: sumber data terbaik menarik pembeli, dan pembeli menarik lebih banyak sumber data berkualitas tinggi. Semua pihak diuntungkan.
Data sintetis sering dilihat sebagai solusi untuk tantangan privasi dan bias. Di mana Anda pikir keseimbangan yang tepat terletak antara dataset sintetis dan dunia nyata, terutama di sektor yang sangat diatur seperti kesehatan?
Data sintetis berguna untuk pengujian dan augmentasi, tetapi tidak dapat sepenuhnya menggantikan nuansa dan kompleksitas kegiatan dunia nyata yang menghasilkan data pelatihan dan evaluasi. Ini terutama benar di kesehatan, di mana riwayat perawatan pasien jangka panjang dan hasil dalam konteks pendekatan perawatan sangat penting.
Kami secara fundamental percaya bahwa AI yang belum dilatih pada kompleksitas penuh dunia nyata tidak dapat tiba-tiba menghasilkan data sintetis yang representatif dari dunia nyata. Kemungkinan besar, keseimbangan yang tepat akan menjadi pendekatan hibrida, di mana kita akan membutuhkan banyak sumber data yang lebih berguna dan berkualitas tinggi yang saat ini terisolasi dan perlu diaktifkan, dan kemudian menggabungkannya dengan data sintetis yang dihasilkan AI untuk kasus penggunaan tertentu.
Bagaimana Protege memungkinkan organisasi untuk berbagi data dunia nyata yang berharga secara aman, tanpa mengungkapkan informasi propietary, data pasien, atau kekayaan intelektual?
Keamanan dan privasi dibangun ke dalam setiap langkah perjalanan. Apakah itu melalui sistem internal kami atau mitra de-identifikasi dan privasi yang memverifikasi transfer data kami, kami memastikan bahwa data kami tetap dalam batas yang dimaksudkan.
Di kesehatan, itu berarti kepatuhan terhadap kerangka privasi dan kepatuhan untuk semua transfer data kami. Di media, itu berarti memastikan konten dilisensikan hanya untuk penggunaan yang dimaksud dan sesuai dengan syarat lisensi dan jangka waktu yang telah disepakati.
Bagaimana model dasar terus berkembang, apa yang akan mendefinisikan generasi berikutnya dari pipa data pelatihan berkualitas tinggi?
Tiga prinsip akan memimpin: provenance, presisi, dan tujuan.
Provenance berarti jejak yang lengkap ke sumber dan syarat. Presisi berarti kurasi untuk modalitas atau kasus penggunaan tertentu, bukan corpus data generik – atau data yang tidak sepenuhnya reflektif dari situasi dunia nyata. Tujuan berarti menyelaraskan pemilihan data dengan hasil nyata, bukan hanya benchmark kebanggaan.
Bersama-sama, ini menciptakan jalur menuju menggunakan data berkualitas tinggi untuk mengarahkan model yang lebih baik.
Bagaimana peraturan yang muncul seperti Undang-Undang AI UE dan kerangka kerja AS yang akan datang mempengaruhi pendekatan Protege terhadap kepatuhan dan kolaborasi data lintas batas?
Peraturan ini memvalidasi pendekatan kami yang kami dasarkan perusahaan ini. Mereka menekankan transparansi, provenance, dan manajemen risiko, yang secara default tertanam dalam produk dan platform kami.
Kami percaya bahwa peluang AI di masa depan harus melindungi pemegang hak cipta dan mempertahankan kontrol privasi yang ketat. Dengan mengobati ini sebagai non-negosiasi, kami membantu mitra data dan klien maju dengan kepercayaan dan kepercayaan dalam lanskap AI yang terus berubah. Tujuan kami adalah membuat pengembangan AI yang bertanggung jawab tidak hanya hal yang benar untuk dilakukan, tetapi juga hal yang lebih mudah dilakukan.
Apa peran yang Anda lihat transparansi data dan provenance memainkan dalam membangun kembali kepercayaan publik pada sistem AI?
Kepercayaan dimulai dengan jejak yang jelas. Ketika orang memahami dari mana data berasal dan bagaimana data digunakan, mereka lebih mungkin untuk mempercayai hasil AI.
Transparansi dan provenance menciptakan akuntabilitas dari pemilik data ke pengembang model hingga pengguna akhir. Mereka mengubah AI dari kotak hitam menjadi sesuatu yang lebih dapat dipahami dan dijelaskan.
Setelah pertumbuhan 20x dan Seri A sebesar $25M, bagaimana Anda mengimbangkan skala yang cepat dengan mempertahankan komitmen etika dan keamanan Protege — dan apa yang berikutnya ketika Anda terus membentuk bagaimana organisasi melatih model AI secara bertanggung jawab?
Etika dan keamanan adalah fondasi yang memungkinkan kami untuk berkembang. Setiap proses baru, kemitraan, dan produk diukur terhadap operasi seolah-olah orang lain sedang mengawasi. Jika semua orang melihat bagaimana kami beroperasi dan keputusan yang kami buat, saya ingin mereka merasa bangga.
Ketika kami melihat ke tahun 2026, kami memperluas jangkauan kami ke area domain baru di luar kesehatan dan media, serta menciptakan produk data baru seperti data evaluasi untuk benchmarking ketika organisasi AI berusaha untuk lebih baik mengukur kinerja AI untuk kasus penggunaan dunia nyata. Tujuan kami adalah menjadi platform tepercaya tunggal untuk data dan keahlian AI dunia nyata, dibangun untuk memungkinkan kemajuan AI untuk jangka panjang.
Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Protege.












