Bizimle iletişime geçin

Yapay Zeka

Google, SLM'leri Öğretmen Olarak Kullanarak Yapay Zeka Eğitimini %28 Daha Hızlı Hale Getiriyor

mm

Eğitim büyük dil modelleri (LLM'ler) çoğu kuruluş için erişilemez hale geldi. Milyonlara varan maliyetler ve bir süper bilgisayarı terletecek hesaplama gereksinimleriyle, AI geliştirme teknoloji devlerinin kapılarının ardında kilitli kaldı. Ancak Google, neden daha önce kimsenin bunu düşünmediğini merak ettirecek kadar basit bir yaklaşımla bu hikayeyi altüst etti: Öğretmen olarak daha küçük AI modelleri kullanmak.

SALT nasıl çalışır: Yapay zeka modellerini eğitmek için yeni bir yaklaşım

“ başlıklı yakın tarihli bir araştırma makalesindeBiraz Yardım Uzun Bir Yol Alır: Küçük LM'leri Kullanarak Verimli LLM Eğitimi” Google Araştırma ve DeepMind, SALT'ı (Küçük Model Destekli Büyük Model Eğitimi) tanıttı. Bu, LLM'leri eğitme konusundaki geleneksel yaklaşımımıza meydan okuyan yeni bir yöntemdir.

Bu araştırma neden önemlidir? Şu anda, büyük AI modellerini eğitmek, birine bir konu hakkında bilmesi gereken her şeyi aynı anda öğretmeye çalışmak gibidir; verimsizdir, pahalıdır ve genellikle devasa bilgi işlem kaynaklarına sahip kuruluşlarla sınırlıdır. SALT farklı bir yol izleyerek hem yenilikçi hem de pratik olan iki aşamalı bir eğitim süreci sunar.

SALT'ın aslında nasıl çalıştığını açıklayalım:

Aşama 1: Bilgi Damıtma

  • A daha küçük dil modeli (SLM) daha büyük modelle anlayışını paylaşarak bir öğretmen gibi davranır
  • Daha küçük model, araştırmacıların "yumuşak etiketler" adını verdiği şey aracılığıyla "öğrenilen bilginin" aktarılmasına odaklanıyor
  • Bunu, bir öğrencinin ileri konulara geçmesinden önce temel kavramları ele alan bir öğretim asistanı gibi düşünün
  • Bu aşama, özellikle öğrenmenin "kolay" bölgelerinde etkilidir; bu bölgeler, daha küçük modelin güçlü bir tahmin güvenine sahip olduğu alanlardır

Aşama 2: Kendi Kendine Denetimli Öğrenme

  • Büyük model bağımsız öğrenmeye geçiş yapıyor
  • Karmaşık desenleri ve zorlu görevleri ustalıkla halletmeye odaklanır
  • Burada model, daha küçük "öğretmeninin" sağlayabileceğinin ötesinde yetenekler geliştirir
  • Aşamalar arasındaki geçiş, damıtma kaybı ağırlığının doğrusal bozunması ve doğrusal oran bozunması dahil olmak üzere dikkatlice tasarlanmış stratejiler kullanır

Teknik olmayan terimlerle, benDaha küçük AI modelinin, eğitimin başlangıç ​​aşamalarında daha büyük modeli yönlendiren yardımcı bir eğitmen gibi olduğunu düşünün. Bu eğitmen, cevaplarıyla birlikte her bir cevap hakkında ne kadar emin olduklarını gösteren ek bilgiler sağlar. "Yumuşak etiketler" olarak bilinen bu ek bilgiler, daha büyük modelin daha hızlı ve etkili bir şekilde öğrenmesine yardımcı olur.

Şimdi, daha büyük AI modeli daha yetenekli hale geldikçe, öğretmene güvenmekten bağımsız öğrenmeye geçiş yapması gerekiyor. İşte "doğrusal bozulma" ve "doğrusal oran bozulması"nın devreye girdiği yer burası.
Bu teknikleri, zamanla öğretmenin etkisini kademeli olarak azaltmak olarak düşünün:
  • Doğrusal Bozunma: Bu, eğitmenin sesini yavaşça kısmak gibidir. Eğitmenin rehberliği her adımda daha az belirgin hale gelir ve bu da daha büyük modelin ham verilerden öğrenmeye daha fazla odaklanmasını sağlar.
  • Doğrusal Oran Azalması: Bu, eğitmenin tavsiyesi ile eldeki gerçek görev arasındaki dengeyi ayarlamak gibidir. Eğitim ilerledikçe, vurgu orijinal göreve doğru kayarken, eğitmenin girdisi daha az baskın hale gelir.
Her iki tekniğin de amacı, daha büyük yapay zeka modeli için sorunsuz bir geçiş sağlamak ve öğrenme davranışında ani değişikliklerin önüne geçmektir. 

Sonuçlar ikna edici. Google araştırmacıları, 1.5 milyar parametreli bir LLM'yi eğitmek için 2.8 milyar parametreli bir SLM kullanarak SALT'ı test ettiğinde yığın veri seti, gördüler:

  • Geleneksel yöntemlere kıyasla eğitim süresinde %28 azalma
  • İnce ayardan sonra önemli performans iyileştirmeleri:
    • Matematik problemlerinin doğruluğu %34.87'ye yükseldi (başlangıçtaki %31.84'e kıyasla)
    • Okuduğunu anlamada doğruluk oranı %67'ye ulaştı (%63.7'den artış)

Ancak SALT'ı gerçekten yenilikçi kılan şey, teorik çerçevesidir. Araştırmacılar, "daha zayıf" bir öğretmen modelinin bile, "olumlu önyargı-varyans dengesi" adını verdikleri bir dengeyi sağlayarak öğrencinin performansını artırabileceğini keşfettiler. Daha basit bir ifadeyle, daha küçük model, daha büyük modelin temel kalıpları daha verimli bir şekilde öğrenmesine yardımcı olarak ileri düzey öğrenme için daha güçlü bir temel oluşturur.

SALT'ın yapay zeka geliştirme alanını yeniden şekillendirmesinin nedeni nedir?

Bulut bilişimin teknoloji şirketi kurabilecek kişileri dönüştürdüğünü hatırlıyor musunuz? SALT da aynısını yapay zeka gelişimi için yapabilir.

Yıllardır AI eğitim yeniliklerini takip ediyorum ve çoğu atılım esas olarak teknoloji devlerine fayda sağladı. Ancak SALT farklı.

Gelecek için bunun anlamı şu olabilir:

Sınırlı Kaynaklara Sahip Kuruluşlar İçin:

  • Artık yetenekli yapay zeka modelleri geliştirmek için devasa bir bilgi işlem altyapısına ihtiyacınız olmayabilir
  • Daha küçük araştırma laboratuvarları ve şirketler özel model geliştirme konusunda deneyler yapabilirler
  • Eğitim süresindeki %28'lik azalma doğrudan daha düşük bilgi işlem maliyetlerine dönüşüyor
  • Daha da önemlisi, mütevazı bilgi işlem kaynaklarıyla başlayabilir ve yine de profesyonel sonuçlar elde edebilirsiniz

Yapay Zeka Geliştirme Alanı İçin:

  • Daha fazla oyuncu sahaya girebilir ve bu da daha çeşitli ve uzmanlaşmış AI çözümlerine yol açabilir
  • Üniversiteler ve araştırma kurumları mevcut kaynaklarıyla daha fazla deney yapabilirler
  • Yapay zeka araştırmalarına giriş engeli önemli ölçüde azaldı
  • Daha önce yapay zeka gelişiminin karşılanamadığı alanlarda yeni uygulamalar görebiliriz

Bunun gelecek için anlamı nedir?

Öğretmen olarak küçük modeller kullanarak, yalnızca AI eğitimini daha verimli hale getirmekle kalmıyoruz; aynı zamanda AI gelişimine kimin katılacağını da temelden değiştiriyoruz. Etkileri, yalnızca teknik iyileştirmelerin çok ötesine geçiyor.

Akılda tutulması gereken önemli noktalar:

  • Eğitim süresinin %28 oranında azaltılması, bir AI projesine başlamak ile onu ulaşılamaz olarak değerlendirmek arasındaki farktır
  • Performans iyileştirmeleri (%34.87 matematik, %67 okuma görevi), erişilebilirliğin her zaman kaliteden ödün vermek anlamına gelmediğini gösteriyor
  • SALT'ın yaklaşımı, bazen en iyi çözümlerin yalnızca daha fazla bilgi işlem gücü eklemekten ziyade temelleri yeniden düşünmekten geldiğini kanıtlıyor

Nelere dikkat etmelisiniz:

  1. Özel yapay zeka modelleri geliştirmeye başlayan daha küçük organizasyonları takip edin
  2. Daha önce yapay zeka gelişiminin karşılanamadığı alanlarda yeni uygulamalara dikkat edin
  3. Daha küçük modellerin uzmanlaşmış görevler için nasıl kullanıldığına dair yenilikler arayın

Unutmayın: SALT'ın gerçek değeri, yapay zekada kimin yenilik yapabileceğini nasıl yeniden şekillendirebileceğidir. İster bir araştırma laboratuvarı yönetiyor olun, ister bir teknoloji ekibini yönetiyor olun veya sadece yapay zeka geliştirmeyle ilgileniyor olun, bu, bir sonraki büyük fikrinizi mümkün kılabilecek türden bir atılımdır.

Belki de ulaşılmaz olduğunu düşündüğünüz o AI projesini düşünmeye başlayın. Hayal ettiğinizden daha mümkün olabilir.

Alex McFarland, yapay zekadaki en son gelişmeleri araştıran bir yapay zeka gazetecisi ve yazarıdır. Dünya çapında çok sayıda yapay zeka girişimi ve yayınıyla işbirliği yaptı.