Yapay Zekâ

Derin Öğrenme Sinir Ağları İçinde Yüksek Verimli Alt Ağların Keşfi

mm

Derin öğrenme sinir ağları genellikle devasa boyutlarda olur ve büyük miktarda hesaplama gücüne ihtiyaç duyar, ancak yeni bir keşif bu görevleri daha verimli bir şekilde gerçekleştirmek için bu gücün nasıl azaltılabileceğini gösteriyor. Jonathan Frankle ve ekibi, MIT’den “lottery ticket hypotheses” adlı bir teori geliştirdi ve bu teori, daha büyük sinir ağları içinde daha ince alt ağların bulunduğunu gösteriyor. Bu alt ağlar, daha az hesaplama gücü ile görevi daha verimli bir şekilde gerçekleştirebiliyor ve en büyük zorluklardan biri, bu alt ağları veya “kazanma biletlerini” bulmak.

Ekibin bu alt ağları, doğal dil işleme (NLP) için en iyi makine öğrenimi tekniği olan BERT içinde keşfetti. NLP, yapay zeka (AI)ın bir alt dalıdır ve insan dilini çözme ve analiz etme sorumluluğunu taşır ve bu, öngörülü metin oluşturma ve sohbet botları gibi uygulamalar için kullanılır.

Ancak BERT büyük ve süper bilgisayarlar gerektirir, bu da çoğu kullanıcı için erişilemez hale getirir. Bu yeni keşif, bu alt ağlar sayesinde erişimi açabilir ve NLP araçları geliştirmek için daha fazla kullanıcıya imkan tanıyabilir.

“Bu modelleri daha ince ve daha verimli hale getirmemiz gerekiyor” diyor Frankle.

Ona göre, bu gelişme “NLP için giriş engellerini azaltabilir”.

BERT – “Obscenely Expensive”

BERT, Google’ın arama motoru gibi şeylerde temel olan bir şeydir ve 2018’de Google tarafından yayınlandıktan sonra çok dikkat çekti. Bu, sinir ağları oluşturmak için bir yöntemdir ve boş yazı parçalarını doldurmak için birçok kez denenir. BERT’in en etkileyici özelliklerinden biri, devasa ilk eğitim verisi kümesidir.

Daha sonra, kullanıcılar tarafından özel görevler için ayarlanabilir, örneğin müşteri hizmetleri sohbet botları, ancak yine de büyük miktarda işlem gücü gerektirir ve parametreler 1 milyara ulaşabilir.

“Standart bir BERT modeli – bahçe çeşidi – 340 milyon parametre sahiptir” diyor Frankle. “Bu, inanılmaz derecede pahalı. Bu, siz veya benim hesaplama kapasitemizin çok ötesinde.”

Texas Üniversitesi’nden lead author Tianlong Chen’e göre, BERT gibi modeller “devasa ağ boyutundan” muzdariptir, ancak yeni araştırmaya göre “lottery ticket hypothesis” bir çözüm gibi görünüyor.

Verimli Alt Ağlar

Chen ve ekibi, BERT içinde daha küçük bir model aradı ve keşfedilen alt ağların performanslarını orijinal BERT modeli ile karşılaştırdı. Bu, çeşitli NLP görevleri üzerinde test edildi, Örneğin, soru cevaplamak ve cümledeki boş kelimeleri doldurmak.

Ekibin başarılı alt ağlar keşfettiği ve bu alt ağların orijinal BERT modelinden %40 ila %90 daha ince olduğu görüldü, gerçek oran görevin türüne bağlı olarak değişiyordu. Ayrıca, görev özel ayarlamadan önce bunları tanımlayabildiler, bu da hesaplama maliyetini daha da azalttı. Bir diğer avantaj, bazı alt ağların bir görev için seçilebileceği ve daha sonra başka bir görev için yeniden kullanılabilmesiydi.

“Ben de şaşırdım, bu gerçekten işe yaradı” diyor Frankle. “Ben bunu bir veri olarak almıyordum. Daha dağınık bir sonuç bekliyordum.”

Facebook AI Araştırma bilimcisi Ari Morcos’a göre, bu keşif “ikna edici” ve “Bu modeller giderek daha yaygın hale geliyor. Bu nedenle, lottery ticket hypothesis’in geçerli olup olmadığını anlamak önemlidir.”

Morcos ayrıca, bu alt ağların çok daha az hesaplama gücü ile çalışabilmesi durumunda, “bunun çok etkili olacağını” ve “şu anda bu çok büyük modellerin çalıştırılması çok pahalı” olduğunu söylüyor.

“Bilmiyorum, süper bilgisayar tarzı hesaplamalarla ne kadar daha büyük olabiliriz” diyor Frankle. “Giriş engellerini azaltmamız gerekiyor.”

“Umarız bu, maliyeti düşürecektir, herkes için, sadece bir dizüstü bilgisayara sahip olan küçük işletmeler için daha erişilebilir hale getirecektir” diyor.

Araştırma, Yapay Sinir İşleme Sistemleri Konferansı‘nda sunulacak.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.