Bizimle iletişime geçin

Yapay Zeka

Google Araştırması, Yapay Zekaya Yönelik Hiper Ölçekli Yaklaşımlarda Bir Darboğaz Belirledi

mm

Google Araştırma'dan yeni bir makale, çok yüksek hacimli veri kümelerinin iyileştirilmesine yönelik mevcut eğilimin, etkili yapay zeka sistemlerinin geliştirilmesine zarar verebileceğini gösteriyor. Aslında araştırma, daha iyi makine öğrenimi ürünlerinin eğitimle ortaya çıkabileceğini gösteriyor az doğru (yani teknik olarak 'daha kötü') veri kümeleri.

Araştırmacılar tarafından elde edilen ilkeler geçerliyse, bu, hiper ölçekli veri kümelerinin, örneğin; yakın zamanda piyasaya sürülen 400 milyon metin/görüntü çifti içeren LAION-400M ve 3 milyar parametre içeren GPT-175 sinir dili motorunun arkasındaki veriler, geleneksel ve popüler makine öğrenimi mimarileri ve metodolojilerinde potansiyel olarak bir tür 'termal sınır'a tabidir; bu sınırda, verinin büyük hacmi, alt akış uygulamalarını 'doyurur' ve bunların yararlı bir şekilde genelleştirilmesini engeller.

Araştırmacılar ayrıca dengesizliği gidermek için hiper ölçekli veri kümesi mimarisini yeniden düşünmek için alternatif yöntemler önermektedir.

Kağıt şöyle diyor:

'Bu olgulara yol açan nedenleri daha derinlemesine inceleyerek, gözlemlediğimiz doygunluk davranışının, temsillerin model katmanları arasında evrimleşme biçimiyle yakından ilişkili olduğunu gösteriyoruz. Yukarı ve aşağı akıştaki performansın birbiriyle çeliştiği daha da uç bir senaryoyu sergiliyoruz. Yani, daha iyi bir aşağı akış performansı elde etmek için, yukarı akış doğruluğunu azaltmamız gerekiyor.'

MKS ders çalışma başlıklı Büyük Ölçekli Ön Eğitimin Sınırlarını Keşfetmek, ve Google Research'teki dört yazardan geliyor.

'Doygunluk' Araştırılıyor

Yazarlar, hiper ölçekli veri çağında makine öğrenimi>veri ilişkilerine ilişkin yaygın varsayımlara meydan okuyor: Ölçeklenen modellerin ve veri boyutunun performansı önemli ölçüde iyileştirdiği (bu inanç, GPT-3'ün piyasaya sürülmesinden bu yana yaşanan abartılı beklentilerle pekişmiştir); ve bu iyileştirilmiş performansın doğrusal (yani arzu edilen) bir şekilde alt akış görevlerine 'geçtiği', böylece nihayetinde pazara sunulan, aksi takdirde yönetilemeyecek kadar büyük veri kümelerinden ve saflaştırılmamış eğitilmiş modellerden türetilen cihaz içi algoritmaların, tam boyutlu, üst akış mimarilerinin içgörülerinden tamamen yararlandığı.

'Bu görüşler,' araştırmacıların notu 'Tek bir büyük veri kümesindeki performansı artırmak için hesaplama ve araştırma çabası harcamanın karşılığını alacağımızı, çünkü bunun birçok alt akış görevini neredeyse ücretsiz olarak çözmemizi sağlayacağını öne sürüyoruz.'

Ancak makale, bilgi işlem kaynaklarının yetersizliği ve buna bağlı olarak kullanılan "ekonomik" model değerlendirme yöntemlerinin, veri hacmi ile faydalı yapay zeka sistemleri arasındaki ilişki dinamikleri konusunda yanlış bir izlenime yol açtığını iddia ediyor. Yazarlar, araştırma topluluğunun genellikle yerel (olumlu) sonuçların daha sonraki faydalı uygulamalara dönüşeceğini varsayması nedeniyle, bu alışkanlığı "önemli bir eksiklik" olarak tanımlıyor:

'[Hesaplama] sınırlamaları nedeniyle, farklı hiperparametre değerleri seçimleri için performans raporlanmamıştır. Her ölçek için seçilen hiperparametre sabitse veya basit bir ölçekleme fonksiyonu tarafından belirlenirse, ölçekleme grafikleri daha uygun görünmektedir.'

Araştırmacılar ayrıca birçok ölçekleme çalışmasının mutlak ölçeklere göre değil, en son teknolojiye (SotA) göre artımlı iyileştirmeler olarak ölçüldüğünü ve 'ölçeklemenin incelenen aralığın dışında kalması için a priori hiçbir neden olmadığını' gözlemlediklerini belirtiyorlar.

Ön eğitim

Makale, büyük ölçekli veriler üzerinde sıfırdan bir model eğitmek için gereken genellikle korkunç zaman dilimlerini kısaltmak ve hesaplama kaynaklarından tasarruf etmek için tasarlanmış bir önlem olan "ön eğitim" uygulamasını ele almaktadır. Ön eğitim anlık görüntüleri, bir alandaki verilerin eğitim sırasında nasıl genelleştirileceğinin "ABC'lerini" ele alır ve Doğal Dil İşleme'den (NLP) deepfake'lere kadar çeşitli makine öğrenimi sektörlerinde ve uzmanlık alanlarında yaygın olarak kullanılır.

Önceki akademik araştırmalar, bulundu ön eğitimin model sağlamlığını ve doğruluğunu önemli ölçüde iyileştirebileceğini ancak yeni makale, özelliklerin karmaşıklığının, nispeten kısa eğitimli ön eğitim şablonlarında bile, boru hattındaki daha sonraki işlemlere kaydırılması durumunda daha faydalı olabileceğini öne sürüyor. .

Ancak araştırmacılar, öğrenme oranlarının uygulanmasında mevcut en iyi uygulamaları kullanan önceden eğitilmiş modellere güvenmeye devam ederlerse bu mümkün olamaz; araştırmanın sonucuna göre, bu durum çalışmanın nihai uygulamalarının nihai doğruluğunu önemli ölçüde etkileyebilir. Bu bağlamda, yazarlar "tüm olası alt akış görevlerinde iyi performans gösteren tek bir önceden eğitilmiş kontrol noktası bulmayı umamayız" diyor.

Çalışma

Doygunluk etkisini oluşturmak için yazarlar, her biri 4800 milyondan 10 milyara kadar değişen sayıda parametreye sahip Vision Transformers, ResNets ve MLP-Mixers üzerinde 10 deney gerçekleştirdi ve bunların tümü ilgili sektörlerde mevcut olan en yüksek hacimli veri kümeleri üzerinde eğitildi. içermek ImageNet21K ve Google'ın JFT-300M.

Gazete iddialarına göre sonuçlar şunu gösteriyor: veri çeşitliliği Verileri, modelleme parametrelerini ve hesaplama süresini 'ölçeklendirmeye' çalışırken ek bir eksen olarak düşünülmelidir. Mevcut haliyle, bir yapay zeka veri hattının yukarı akış bölümündeki eğitim kaynaklarının (ve araştırmacı dikkatinin) yoğun bir şekilde yoğunlaşması, aşağı akış uygulamalarını 'doygunluk' noktasına kadar bir parametre çığıyla etkili bir şekilde patlatmakta ve dağıtılan algoritmaların özellikler arasında gezinme, çıkarım yapma veya dönüşümler gerçekleştirme kapasitesini düşürmektedir.

Makale şu sonuca varıyor:

'Kapsamlı bir çalışmayla, yukarı akış görevinin performansını ölçeklendirme veya hiperparametre ve mimari seçimlerle iyileştirdikçe, aşağı akış görevlerinin performansının doygunluk davranışı gösterdiğini tespit ettik. Ayrıca, yaygın inanışın aksine, ölçeklendirmenin tek bir modelin herkese uyması çözümüne yol açmadığına dair güçlü ampirik kanıtlar sunuyoruz.'

 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai