Connect with us

Wawancara

Alex Ratner, CEO & Co-Founder of Snorkel AI – Interview Series

mm

Alex Ratner adalah CEO & Co-Founder of Snorkel AI, sebuah perusahaan yang lahir dari laboratorium AI Stanford.

Snorkel AI membuat pengembangan AI menjadi cepat dan praktis dengan mengubah proses pengembangan AI manual menjadi solusi programatik. Snorkel AI memungkinkan perusahaan untuk mengembangkan AI yang bekerja untuk beban kerja unik mereka menggunakan data dan pengetahuan proprietary mereka 10-100x lebih cepat.

Apa yang awalnya menarik Anda ke ilmu komputer?

Ada dua aspek yang sangat menarik dari ilmu komputer ketika Anda masih muda. Satu, Anda dapat belajar secepat yang Anda inginkan dari bereksperimen dan membangun, dengan umpan balik instan, daripada harus menunggu seorang guru. Dua, Anda dapat membangun banyak tanpa harus meminta izin kepada siapa pun!

Saya mulai programming ketika saya masih kecil karena alasan-alasan tersebut. Saya juga menyukai presisi yang dibutuhkan. Saya menikmati proses abstraksi proses dan rutinitas yang kompleks, dan kemudian mengkodekannya dengan cara modular.

Kemudian, sebagai orang dewasa, saya kembali ke ilmu komputer secara profesional melalui pekerjaan di bidang konsultasi di mana saya ditugaskan untuk menulis skrip untuk melakukan analisis dasar atas korpus paten. Saya terkesan dengan seberapa banyak pengetahuan manusia—apa pun yang pernah dianggap paten—tersedia, namun sangat tidak dapat diakses karena sangat sulit untuk melakukan analisis sederhana atas teks teknis yang kompleks dan data multi-modal.

Ini yang membawa saya kembali ke jurang, dan akhirnya kembali ke sekolah pascasarjana di Stanford, dengan fokus pada NLP, yang merupakan area penggunaan ML/AI pada bahasa alami.

Anda pertama kali memulai dan memimpin proyek Snorkel open-source saat di Stanford, bisa Anda jelaskan perjalanan pada hari-hari awal tersebut?

Ketika itu, kita, seperti banyak orang di industri, fokus pada pengembangan algoritma baru dan—yaitu semua “hal-hal machine learning yang canggih” yang dilakukan oleh komunitas penelitian dan dipublikasikan dalam paper.

Namun, kita selalu sangat berkomitmen untuk mengaitkannya dengan masalah dunia nyata—terutama dengan dokter dan ilmuwan di Stanford. Tapi setiap kali kita mempresentasikan model atau algoritma baru, responsenya menjadi “ya, kita akan mencobanya, tapi kita perlu semua data pelatihan yang telah diberi label yang kita tidak memiliki waktu untuk membuatnya!”

Kita melihat bahwa masalah besar yang tidak terucapkan adalah seputar proses pelabelan dan pengkurasi data pelatihan—jadi kita mengalihkan semua fokus kita ke sana, yang merupakan bagaimana proyek Snorkel dan konsep “data-centric AI” dimulai.

Snorkel memiliki pendekatan AI yang berfokus pada data, bisa Anda definisikan apa yang dimaksud dengan ini dan bagaimana perbedaannya dengan pengembangan AI yang berfokus pada model?

Data-centric AI berarti fokus pada membangun data yang lebih baik untuk membangun model yang lebih baik.

Ini berbeda dengan—tetapi bekerja sama dengan—model-centric AI. Dalam model-centric AI, ilmuwan data atau peneliti menganggap data sebagai statis dan menuangkan energi mereka ke dalam penyesuaian arsitektur model dan parameter untuk mencapai hasil yang lebih baik.

Peneliti masih melakukan pekerjaan yang hebat dalam model-centric AI, tetapi model dan teknik auto ML telah meningkatkan sehingga pilihan model telah menjadi komoditas pada waktu produksi. Ketika itu terjadi, cara terbaik untuk meningkatkan model tersebut adalah dengan menyediakan mereka dengan lebih banyak dan lebih baik data.

Apa yang menjadi prinsip inti dari pendekatan AI yang berfokus pada data?

Prinsip inti dari data-centric AI sangat sederhana: data yang lebih baik membangun model yang lebih baik.

Dalam pekerjaan akademis kita, kita telah menyebutnya “data programming.” Ideanya adalah bahwa jika Anda memberi model yang kuat cukup contoh input dan output yang diharapkan, model tersebut belajar untuk meniru pola tersebut.

Ini menyajikan tantangan yang lebih besar dari yang Anda harapkan. Sebagian besar data tidak memiliki label—atau, setidaknya, tidak memiliki label yang berguna untuk aplikasi Anda. Pelabelan data tersebut dengan tangan memerlukan ketekunan, waktu, dan upaya manusia.

Memiliki set data yang telah diberi label juga tidak menjamin kualitas. Kesalahan manusia meresap ke mana-mana. Setiap contoh yang salah dalam ground truth akan merusak kinerja model akhir. Tidak ada jumlah penyesuaian parameter yang dapat menutupi kenyataan tersebut. Peneliti bahkan menemukan catatan yang diberi label salah dalam set data sumber terbuka yang fundamental.

Bisa Anda menjelaskan apa yang dimaksud dengan Data-Centric AI yang programatik?

Pelabelan data manual menyajikan tantangan serius. Melakukannya memerlukan banyak jam manusia, dan terkadang jam manusia tersebut dapat mahal. Dokumen medis, misalnya, hanya dapat diberi label oleh dokter.

Selain itu, lari pelabelan manual sering kali berjumlah proyek sekali pakai. Pemberi label menganotasi data sesuai dengan skema yang kaku. Jika kebutuhan bisnis berubah dan meminta set label yang berbeda, pemberi label harus memulai dari awal.

Pendekatan programatik untuk data-centric AI meminimalkan kedua masalah tersebut. Sistem pelabelan programatik Snorkel AI menggabungkan sinyal yang beragam—dari model warisan hingga label yang ada hingga basis pengetahuan eksternal—untuk mengembangkan label probabilistik pada skala besar. Sumber utama sinyal kita berasal dari ahli subjek yang bekerja sama dengan ilmuwan data untuk membangun fungsi pelabelan. Fungsi-fungsi ini mengkodekan penilaian ahli mereka menjadi aturan yang dapat diskalakan, memungkinkan upaya yang diinvestasikan dalam satu keputusan untuk mempengaruhi puluhan atau ratusan titik data.

Kerangka ini juga fleksibel. Alih-alih memulai dari awal ketika kebutuhan bisnis berubah, pengguna menambah, menghapus, dan menyesuaikan fungsi pelabelan untuk menerapkan label baru dalam hitungan jam bukan hari.

Bagaimana pendekatan data-centric ini memungkinkan penskalaan cepat data yang tidak diberi label?

Pendekatan programatik kita untuk data-centric AI memungkinkan penskalaan cepat data yang tidak diberi label dengan memperbesar dampak dari setiap pilihan. Setelah ahli subjek membangun set ground truth awal yang kecil, mereka mulai berkolaborasi dengan ilmuwan data untuk iterasi cepat. Mereka mendefinisikan beberapa fungsi pelabelan, melatih model cepat, menganalisis dampak dari fungsi pelabelan mereka, dan kemudian menambah, menghapus, atau menyesuaikan fungsi pelabelan sesuai kebutuhan.

Setiap siklus meningkatkan kinerja model sampai memenuhi atau melebihi tujuan proyek. Ini dapat mengurangi bulan pekerjaan pelabelan data menjadi hanya jam. Dalam satu proyek penelitian Snorkel, dua peneliti kita memberi label 20.000 dokumen dalam satu hari—volume yang bisa memakan waktu sepuluh minggu atau lebih bagi pemberi label manual.

Snorkel menawarkan beberapa solusi AI termasuk Snorkel Flow, Snorkel GenGlow dan Snorkel Foundry. Apa perbedaan antara penawaran-penawaran ini?

Suite Snorkel AI memungkinkan pengguna untuk membuat fungsi pelabelan (misalnya, mencari kata kunci atau pola dalam dokumen) untuk memberi label programatik jutaan titik data dalam menit, bukan memberi label satu titik data pada satu waktu.

Ini mengompresi waktu yang dibutuhkan perusahaan untuk menerjemahkan data proprietary mereka menjadi model yang siap diproduksi dan mulai mengekstrak nilai dari mereka. Snorkel AI memungkinkan perusahaan untuk menskalakan pendekatan human-in-the-loop dengan mengintegrasikan penilaian manusia dan pengetahuan ahli subjek secara efisien.

Ini menyebabkan AI yang lebih transparan dan dapat dijelaskan, memungkinkan perusahaan untuk mengelola bias dan menghasilkan hasil yang bertanggung jawab.

Turun ke intinya, Snorkel AI memungkinkan perusahaan Fortune 500 untuk:

  • Mengembangkan data yang diberi label berkualitas tinggi untuk melatih model atau meningkatkan RAG;
  • Menyesuaikan LLM dengan fine-tuning;
  • Menggunakan LLM menjadi model yang lebih kecil dan lebih murah untuk dioperasikan;
  • Membangun LLM yang spesifik domain dan tugas dengan pre-training.

Anda telah menulis beberapa paper yang sangat penting, menurut Anda paper mana yang paling penting?

Salah satu paper kunci adalah paper asli tentang data programming (memberi label data pelatihan secara programatik) dan tentang Snorkel.

Apa visi Anda untuk masa depan Snorkel?

Saya melihat Snorkel menjadi mitra tepercaya untuk semua perusahaan besar yang serius tentang AI.

Snorkel Flow harus menjadi alat yang sangat umum untuk tim ilmu data di perusahaan besar—apakah mereka menyesuaikan model bahasa besar khusus untuk organisasi mereka, membangun model klasifikasi gambar, atau membangun model regresi logistik sederhana yang dapat diterapkan.

Tidak peduli jenis model yang dibutuhkan bisnis, mereka akan membutuhkan data yang diberi label berkualitas tinggi untuk melatihnya.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Snorkel AI,

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.