Röportajlar

Alex Ratner, Snorkel AI CEO'su ve Kurucu Ortağı - Röportaj Serisi

Yayınlanan

6 ay önce

1 Aralık 2023

Alex Ratner CEO'su ve Kurucu Ortağıdır Şnorkel AIStanford AI laboratuvarından doğan bir şirket.

Şnorkel AI Manuel yapay zeka geliştirme süreçlerini programatik çözümlere dönüştürerek yapay zeka geliştirmeyi hızlı ve pratik hale getirir. Snorkel AI, kuruluşların kendi özel verilerini ve bilgilerini 10-100 kat daha hızlı kullanarak benzersiz iş yükleri için çalışan yapay zeka geliştirmelerine olanak tanır.

Başlangıçta sizi bilgisayar bilimine çeken neydi?

Gençken bilgisayar biliminin çok heyecan verici iki yönü vardır. Birincisi, bir öğretmeni beklemek zorunda kalmadan, anında geri bildirim verildiğinde, tamir ederek ve inşa ederek istediğiniz kadar hızlı öğrenebilirsiniz. İki, inşaata başlıyorsunuz çok kimseden izin istemeye gerek kalmadan!

Bu nedenlerden dolayı küçükken programlamaya başladım. Ayrıca gerektirdiği hassasiyeti de sevdim. Karmaşık süreçleri ve rutinleri soyutlama ve ardından bunları modüler bir şekilde kodlama sürecinden keyif aldım.

Daha sonra, bir yetişkin olarak, patent külliyatının bazı temel analizlerini yapmak için senaryolar yazmakla görevlendirildiğim bir danışmanlık işi aracılığıyla profesyonel olarak bilgisayar bilimine geri döndüm. İnsan bilgisinin (herkesin patentlenebilir kabul ettiği herhangi bir şeyin) ne kadarının kolaylıkla elde edilebilir olduğu, ancak karmaşık teknik metinler ve çok modlu veriler üzerinde en basit analizi bile yapmanın çok zor olması nedeniyle bu kadar erişilemez olması beni büyülemişti.

Beni tavşan deliğine geri götüren ve sonunda doğal dilde makine öğrenimi/yapay zeka kullanma alanı olan NLP'ye odaklanarak Stanford'daki yüksek lisansa geri dönmemi sağlayan şey buydu.

Snorkel açık kaynak projesini ilk kez Stanford'dayken başlattınız ve yönettiniz, bu ilk günlerin yolculuğunu bize anlatabilir misiniz?

O zamanlar sektördeki pek çok kişi gibi biz de yeni algoritmalar ve topluluktaki insanların araştırdığı ve üzerinde makaleler yayınladığı tüm "süslü" makine öğrenimi konularını geliştirmeye odaklanmıştık.

Ancak bunu gerçek dünyadaki sorunlara dayandırmaya her zaman çok kararlıydık; çoğunlukla Stanford'daki doktorlar ve bilim adamlarıyla. Ancak ne zaman yeni bir model veya algoritma sunsak, yanıt şu şekilde oldu: "Elbette bunu deneyeceğiz, ancak oluşturmaya vaktimiz olmayan tüm bu etiketli eğitim verilerine ihtiyacımız olacak!"

Konuşulmayan en büyük sorunun, eğitim verilerinin etiketlenmesi ve düzenlenmesi süreciyle ilgili olduğunu görüyorduk; bu yüzden tüm odağımızı buna kaydırdık; Snorkel projesi ve "veri merkezli yapay zeka" fikri böyle başladı.

Snorkel'in veri merkezli bir yapay zeka yaklaşımı var. Bunun ne anlama geldiğini ve model merkezli yapay zeka geliştirmeden nasıl farklı olduğunu tanımlayabilir misiniz?

Veri merkezli yapay zeka, daha iyi modeller oluşturmak için daha iyi veriler oluşturmaya odaklanmak anlamına gelir.

Bu, model merkezli yapay zekanın tersidir ancak onunla el ele çalışır. Model merkezli yapay zekada veri bilimcileri veya araştırmacılar, verilerin statik olduğunu varsayar ve daha iyi sonuçlar elde etmek için enerjilerini model mimarilerini ve parametrelerini ayarlamaya harcarlar.

Araştırmacılar hala model merkezli yapay zeka konusunda harika işler yapıyor, ancak kullanıma hazır modeller ve otomatik makine öğrenimi teknikleri o kadar gelişti ki, model seçimi üretim sırasında metalaştırıldı. Durum böyle olduğunda bu modelleri geliştirmenin en iyi yolu onlara daha fazla ve daha iyi veri sağlamaktır.

Veri merkezli yapay zeka yaklaşımının temel ilkeleri nelerdir?

Veri merkezli yapay zekanın temel prensibi basittir: daha iyi veriler daha iyi modeller oluşturur.

Akademik çalışmalarımızda buna “veri programlama” adını verdik. Buradaki fikir, yeterince sağlam bir modeli yeterince girdi ve beklenen çıktı örnekleriyle beslerseniz, modelin bu kalıpları nasıl kopyalayacağını öğrenmesidir.

Bu beklediğinizden daha büyük bir zorluk sunuyor. Verilerin büyük çoğunluğunda etiket yoktur veya en azından uygulamanız için yararlı etiketler yoktur. Bu verileri elle etiketlemek sıkıcılık, zaman ve insan çabası gerektirir.

Etiketli bir veri setine sahip olmak da kaliteyi garanti etmez. İnsan hatası her yere sinsice yaklaşıyor. Temel gerçeğinizdeki her yanlış örnek, nihai modelin performansını düşürecektir. Hiçbir parametre ayarı bu gerçeğin üzerini örtemez. Araştırmacılar, temel açık kaynak veri setlerinde yanlış etiketlenmiş kayıtlar bile buldular.

Veri Odaklı Yapay Zekanın programatik olmasının ne anlama geldiğini açıklayabilir misiniz?

Verilerin manuel olarak etiketlenmesi ciddi zorluklar yaratır. Bunu yapmak çok fazla çalışma saati gerektirir ve bazen bu çalışma saatleri pahalı olabilir. Örneğin tıbbi belgeler yalnızca doktorlar tarafından etiketlenebilir.

Ayrıca manuel etiketleme sprintleri genellikle tek kullanımlık projeler anlamına gelir. Etiketleyiciler verilere katı bir şemaya göre açıklama ekler. Bir işletmenin değişime ihtiyacı varsa ve farklı bir etiket seti talep ederse, etiketleyicilerin yeniden sıfırdan başlaması gerekir.

Veri merkezli yapay zekaya yönelik programatik yaklaşımlar bu sorunların her ikisini de en aza indirir. Snorkel AI'nin programatik etiketleme sistemi, geniş ölçekte olasılıklı etiketler geliştirmek için eski modellerden mevcut etiketlere ve harici bilgi tabanlarına kadar çeşitli sinyalleri birleştirir. Birincil sinyal kaynağımız, etiketleme işlevleri oluşturmak için veri bilimcilerle işbirliği yapan konu uzmanlarından gelir. Bunlar, uzman görüşlerini ölçeklenebilir kurallara kodlayarak tek bir karara harcanan çabanın düzinelerce veya yüzlerce veri noktasını etkilemesine olanak tanır.

Bu çerçeve aynı zamanda esnektir. Kullanıcılar, iş ihtiyaçları değiştiğinde sıfırdan başlamak yerine, yeni etiketleri günler yerine saatler içinde uygulamak için etiketleme işlevlerini ekler, kaldırır ve ayarlar.

Bu veri merkezli yaklaşım, etiketlenmemiş verilerin hızla ölçeklendirilmesini nasıl sağlar?

Veri merkezli yapay zekaya yönelik programatik yaklaşımımız, her seçimin etkisini artırarak etiketlenmemiş verilerin hızla ölçeklendirilmesini sağlar. Konunun uzmanları başlangıçta küçük bir temel gerçek kümesi oluşturduktan sonra, hızlı yineleme için veri bilimcilerle işbirliği yapmaya başlarlar. Birkaç etiketleme işlevi tanımlarlar, hızlı bir model eğitirler, etiketleme işlevlerinin etkisini analiz ederler ve ardından etiketleme işlevlerini gerektiği gibi ekler, kaldırır veya ince ayarlar yaparlar.

Her döngü, projenin hedeflerini karşılayana veya aşıncaya kadar model performansını artırır. Bu, aylarca süren veri etiketleme çalışmasını yalnızca saatlere indirebilir. Bir Snorkel araştırma projesinde iki araştırmacımız tek bir günde 20,000 belgeyi etiketledi; bu, manuel etiketlemecilerin on hafta veya daha uzun süre alabileceği bir hacimdi.

Snorkel, Snorkel Flow, Snorkel GenGlow ve Snorkel Foundry dahil olmak üzere birçok yapay zeka çözümü sunmaktadır. Bu teklifler arasındaki farklar nelerdir?

Snorkel AI paketi, kullanıcıların tek seferde tek bir veri noktasını manuel olarak etiketlemek yerine, milyonlarca veri noktasını programlı olarak dakikalar içinde etiketlemek için etiketleme işlevleri (örneğin, belgelerde anahtar kelimeler veya desenler aramak) oluşturmasına olanak tanır.

Şirketlerin özel verileri üretime hazır modellere çevirmesi ve bunlardan değer elde etmeye başlaması için gereken süreyi kısaltır. Snorkel AI, kuruluşların insan muhakemesini ve konuya ilişkin uzman bilgisini verimli bir şekilde birleştirerek döngüdeki insan yaklaşımlarını ölçeklendirmesine olanak tanır.

Bu, daha şeffaf ve açıklanabilir yapay zekaya yol açarak kuruluşların önyargıyı yönetme ve sorumlu sonuçlar sunma konusunda donatılmasını sağlar.

Somun ve cıvatalara inildiğinde Snorkels AI, Fortune 500 şirketlerinin şunları yapmasını sağlar:

Modelleri eğitmek veya RAG'ı geliştirmek için yüksek kaliteli etiketli veriler geliştirin;
Yüksek Lisans'ları ince ayarlarla özelleştirin;
LLM'leri çok daha küçük ve kullanımı daha ucuz olan özel modellere ayırın;
Ön eğitimle etki alanına ve göreve özel yüksek lisans eğitimleri oluşturun.

Çığır açıcı makaleler yazdınız, sizce en önemli makaleniz hangisi?

Anahtar makalelerden biri orijinal olanıydı. veri programlama (eğitim verilerini programlı olarak etiketleme) ve Snorkel için olanı.

Snorkel'in geleceğine dair vizyonunuz nedir?

Snorkel'in yapay zeka konusunda ciddi olan tüm büyük kuruluşlar için güvenilir bir ortak haline geldiğini görüyorum.

Snorkel Flow, ister kuruluşları için özel büyük dil modellerine ince ayar yapıyor, ister görüntü sınıflandırma modelleri oluşturuyor, ister basit, konuşlandırılabilir lojistik regresyon modelleri oluşturuyor olsun, büyük kuruluşlardaki veri bilimi ekipleri için her yerde bulunan bir araç haline gelmelidir.

Bir işletmenin ne tür modellere ihtiyacı olursa olsun, onu eğitmek için yüksek kaliteli etiketli verilere ihtiyaçları olacaktır.

Harika röportaj için teşekkürler, daha fazla bilgi edinmek isteyen okuyucular ziyaret etmelidir. Şnorkel AI,