Bizimle iletişime geçin

Yapay Zeka

Google Araştırması, Yapay Zekaya Yönelik Hiper Ölçekli Yaklaşımlarda Bir Darboğaz Belirledi

mm

Google Araştırma'dan yeni bir makale, çok yüksek hacimli veri kümelerinin iyileştirilmesine yönelik mevcut eğilimin, etkili yapay zeka sistemlerinin geliştirilmesine zarar verebileceğini gösteriyor. Aslında araştırma, daha iyi makine öğrenimi ürünlerinin eğitimle ortaya çıkabileceğini gösteriyor az doğru (yani teknik olarak 'daha kötü') veri kümeleri.

Araştırmacılar tarafından elde edilen ilkeler geçerliyse, bu şu anlama gelir: yakın zamanda piyasaya sürülen LAION-400M (400 milyon metin/resim çifti içerir) ve GPT-3 nöral dil motorunun (175 milyar parametre içerir) arkasındaki veriler, geleneksel ve popüler makine öğrenimi mimarilerinde potansiyel olarak bir tür "termal sınıra" tabidir. ve veri hacminin aşağı akış uygulamalarını 'doygunlaştırdığı' ve bunların faydalı bir şekilde genelleştirilmesini önlediği metodolojiler.

Araştırmacılar ayrıca dengesizliği gidermek için hiper ölçekli veri kümesi mimarisini yeniden düşünmek için alternatif yöntemler önermektedir.

Kağıt şöyle diyor:

Bu fenomenlere yol açan nedenleri anlamak için daha derine inerek, gözlemlediğimiz doygunluk davranışının, modellerin katmanları boyunca temsillerin evrimleşme şekliyle yakından ilişkili olduğunu gösteriyoruz. Yukarı akış ve aşağı akıştaki performansın birbiriyle çeliştiği daha da aşırı bir senaryo sergiliyoruz. Yani, daha iyi bir aşağı akış performansına sahip olmak için, yukarı akış doğruluğuna zarar vermemiz gerekiyor.'

The ders çalışma başlıklı Büyük Ölçekli Ön Eğitimin Sınırlarını Keşfetmek, ve Google Research'teki dört yazardan geliyor.

'Doygunluğu' Araştırmak

Yazarlar, hiper ölçekli veri çağında makine öğrenimi>veri ilişkilerinin hakim varsayımlarına meydan okuyor: modellerin ve veri boyutunun ölçeklenmesi performansı önemli ölçüde artırıyor (bu inanç, lansmanından bu yana GPT-3'ün yutturmacasında pekişti); ve bu iyileştirilmiş performansın aşağı akış görevlerine doğrusal (yani arzu edilen) bir şekilde 'geçtiği', böylece başka türlü yönetilemeyecek kadar büyük veri kümelerinden ve damıtılmamış eğitimli modellerden türetilen, nihayetinde piyasaya sürülen cihaz üstü algoritmaların tamamen fayda sağlaması tam boyutlu, yukarı akış mimarilerinin içgörüleri.

'Bu görüşler' araştırmacıların notu "tek bir devasa külliyatta performansı iyileştirmek için bilgi işlem ve araştırma çabası harcamanın karşılığını vereceğini, çünkü bu, birçok aşağı akış görevini neredeyse ücretsiz olarak çözmemizi sağlayacağını öne sürüyor."

Ancak makale, bilgi işlem kaynaklarının eksikliğinin ve ardından gelen 'ekonomik' model değerlendirme yöntemlerinin, veri hacmi ile kullanışlı AI sistemleri arasındaki ilişki dinamikleri hakkında yanlış bir izlenime katkıda bulunduğunu iddia ediyor. Araştırma topluluğu tipik olarak yerel (olumlu) sonuçların daha sonraki faydalı uygulamalara dönüşeceğini varsaydığından, yazarlar bu alışkanlığı 'büyük bir eksiklik' olarak tanımlamaktadır:

Hesaplama sınırlamaları nedeniyle, farklı hiper parametre değerleri seçenekleri için performans bildirilmez. Her ölçek için seçilen hiper parametre sabitlenirse veya basit bir ölçeklendirme işlevi tarafından belirlenirse, ölçeklendirme grafikleri daha uygun görünür.'

Araştırmacılar ayrıca, birçok ölçeklendirme çalışmasının mutlak ölçeklere göre değil, en son teknolojiye (SotA) karşı artımlı iyileştirmeler olarak ölçüldüğünü belirterek, "ölçeklendirmenin dışında tutulması için a priori hiçbir neden olmadığını" gözlemliyor. çalışılan aralık'.

Ön eğitim

Makalede, bilgi işlem kaynaklarından tasarruf etmek ve büyük ölçekli veriler üzerinde bir modeli sıfırdan eğitmek için gereken çoğu zaman korkunç zaman ölçeklerini azaltmak için tasarlanmış bir önlem olan 'ön eğitim' uygulaması ele alınmaktadır. Eğitim öncesi anlık görüntüler, bir alandaki verilerin eğitim sırasında genelleştirilme biçiminin "ABC'lerini" ele alır ve Doğal Dil İşleme'den (NLP) deepfake'lere kadar çeşitli makine öğrenimi sektörleri ve uzmanlıklarında yaygın olarak kullanılır.

Önceki akademik araştırmalar, bulundu ön eğitimin model sağlamlığını ve doğruluğunu önemli ölçüde iyileştirebileceğini ancak yeni makale, özelliklerin karmaşıklığının, nispeten kısa eğitimli ön eğitim şablonlarında bile, boru hattındaki daha sonraki işlemlere kaydırılması durumunda daha faydalı olabileceğini öne sürüyor. .

Bununla birlikte, araştırmacılar, öğrenme oranlarının uygulanmasında mevcut en iyi uygulamaları kullanan önceden eğitilmiş modellere güvenmeye devam ederse bu gerçekleşemez; araştırma, çalışmanın nihai uygulamalarının nihai doğruluğunu önemli ölçüde etkileyebileceği sonucuna varır. Bu bağlamda, yazarlar, "tüm olası aşağı akış görevlerinde iyi performans gösteren, önceden eğitilmiş bir kontrol noktası bulmayı umut edemezsiniz" diyorlar.

Çalışma

Doygunluk etkisini oluşturmak için yazarlar, her biri 4800 milyondan 10 milyara kadar değişen sayıda parametreye sahip Vision Transformers, ResNets ve MLP-Mixers üzerinde 10 deney gerçekleştirdi ve bunların tümü ilgili sektörlerde mevcut olan en yüksek hacimli veri kümeleri üzerinde eğitildi. içermek ImageNet21K ve Google'ın kendi JFT-300M.

Gazete iddialarına göre sonuçlar şunu gösteriyor: veri çeşitliliği verileri, model parametrelerini ve hesaplama süresini 'büyütmeye' çalışırken ek bir eksen olarak düşünülmelidir. Halihazırda, bir AI boru hattının yukarı akış bölümündeki eğitim kaynaklarının (ve araştırmacının dikkatinin) yoğun konsantrasyonu, aşağı akış uygulamalarını bir "doygunluk" noktasına kadar bir parametre çığıyla etkili bir şekilde patlatıyor ve dağıtılan algoritmaların gezinme kabiliyetini düşürüyor. özellikler aracılığıyla ve çıkarım veya efekt dönüşümleri gerçekleştirin.

Makale şu sonuca varıyor:

Kapsamlı bir çalışma yoluyla, yukarı akış görevinin performansını ölçeklendirme veya hiper parametre ve mimari seçimler yoluyla iyileştirdikçe, aşağı akış görevlerinin performansının doyurucu bir davranış gösterdiğini belirledik. Ek olarak, ortak anlatının aksine, ölçeklendirmenin herkese uyan tek bir çözüme yol açmadığına dair güçlü ampirik kanıtlar sunuyoruz.'

 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai