Connect with us

Alman Otomatik Çeviri Modellerinin Yüksek Karbon Ayak İzi

Yapay Zekâ

Alman Otomatik Çeviri Modellerinin Yüksek Karbon Ayak İzi

mm

Almanca’nın, makine öğrenimi çevirisi modellerini eğitmek için en karbon yoğun popüler dil olabileceğini gösteren yeni bir araştırmaya göre, bu durumun nedenleri tamamen net değil. Yeni rapor, artan elektrik tüketimine karşı daha karbon verimlisi AI eğitim yöntemleri araştırmasına yol açmayı amaçlıyor.

Ön baskı makalesi Karbon Emisyonunuzu Kontrol Edin: Makine Çevirisinde Karbon Emisyonlarını Ölçmek başlığını taşıyor ve Hindistan’ın Manipal Teknoloji Enstitüsü’nden araştırmacılara ait.

Yazarlar, çeşitli olası diller arası çevirisi modellerinin eğitim sürelerini test etti ve karbon emisyon değerlerini hesapladı. Üç en karbon yoğun dil çifti ile üç en karbon ekonomisi modeli arasında ‘önemli bir uyumsuzluk’ buldular.

10 epoch eğitim süresince salınan ortalama karbon emisyonları. Solda, ConvSeq (aşağıya bakınız) sonuçları, sağda, Transformers. Kaynak: https://arxiv.org/pdf/2109.12584.pdf

10 epoch eğitim süresince salınan ortalama karbon emisyonları. Solda, ConvSeq (aşağıya bakınız) sonuçları, sağda, Transformers. Kaynak: https://arxiv.org/pdf/2109.12584.pdf

Makale, İngilizce>Fransızca, Fransızca>İngilizce ve paradoksal olarak Almanca>İngilizce’nin en ‘ekolojik’ dil çiftleri olduğunu buldu. Almanca, en yüksek tüketim gösteren çiftlerde yer alıyor: Fransızca>Almanca, İngilizce>Almanca ve Almanca>Fransızca.

Bileşik Faiz

Bulgular, sözel çeşitliliğin ‘performansın yeterli seviyeye ulaşması için eğitim süresiyle doğrudan orantılı’ olduğunu gösteriyor. Ayrıca, Almanca dilinin, Type-Token Ratio (TTR) – metin uzunluğuna dayalı sözcük büyüklüğü ölçümü – tarafından tahmin edilen üç test edilen dil arasında en yüksek sözel çeşitlilik puanına sahip olduğunu belirtiyorlar.

Almanca’nın çevirisi modellerinde işlenmesinin artan talepleri, kullanılan deney verisinde yansıtılmıyor. Aslında, kaynak verilerden türetilen Almanca dil tokenlerinin sayısı (299445) İngilizce’den (320108) daha az ve Fransızca’dan (335917) çok daha az.

Doğal Dil İşleme (NLP) açısından, challenge, bileşik Almanca kelimelerini oluşturan kelimelere ayırmak. NLP sistemleri, genellikle, Almanca’da, İngilizce gibi daha düşük TTR puanına sahip dillerde bulunan ön-‘bölme’ surrounding grammar veya bağlam ipuçlarını olmadan bunu başarmak zorundalar. Bu sürec bileşik bölme veya decompounding olarak adlandırılır.

Almanca dilinin, dünyanın en uzun tek kelimelerinden bazılarına sahip olduğunu söyleyebiliriz, ancak 2013 yılında, 65 karakterlik eski rekor kıran kelimesi resmi olarak tanınmayı kaybetti, bu kelime bu makalede kendi satırına ihtiyaç duyuyor:

Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz

Kelime, sığır etiketi izleme yasasını delegasyonuna atıfta bulunmakta, ancak o yıl Avrupa düzenlemelerinde bir değişiklik nedeniyle varoluşunu kaybetti ve yerini diğer popüler kelimelere bıraktı, örneğin ‘Tuna buharlı gemi şirketinin kaptanının dul eşi’ (49 karakter):

Donaudampfschifffahrtsgesellschaftskapitaenswitwe

Genel olarak, Almanca’nın sentaktik yapısı, birçok batı dilinde NLP uygulamalarının temelini oluşturan kelime sırası varsayımlarından ayrılmayı gerektiriyor. Berlin merkezli popüler spaCY NLP çerçevesi, 2016 yılında yerel dilini benimsedi.

İngilizce ve Almanca bir cümledeki projektif eşlemeler, Almanca dilindeki leksiksel öğelerin karmaşık ilişkilerini gösteriyor. Kaynak: https://explosion.ai/blog/german-model

İngilizce ve Almanca bir cümledeki projektif eşlemeler, Almanca dilindeki leksiksel öğelerin karmaşık ilişkilerini gösteriyor. Kaynak: https://explosion.ai/blog/german-model

Veri ve Test

Araştırmacılar, Multi30k veri setini kullandılar, bu veri seti Fransızca, Almanca ve İngilizce dillerinde 30.000 örnek içeriyor.

Kullanılan ilk model, Facebook AI’nin 2017 Convolutional Sequence to Sequence (ConvSeq) idi. Bu, convolutional katmanları içeren bir sinir ağıdır, ancak yinelemeli birimler içermez ve bunun yerine metin özellikleri türetmek için filtreleri kullanır. Bu, tüm işlemlerin hesaplamalı olarak verimli bir şekilde paralel olarak gerçekleşmesini sağlar.

İkinci yaklaşım, Google’ın etkili Transformers mimarisini kullanıyordu, yine 2017’den. Transformers, lineer katmanlar, dikkat mekanizmaları ve normalize rutinleri kullanıyor. Aslen yayınlanan model, karbon verimliliği açısından eleştirilere maruz kaldı, ancak sonraki geliştirmelerin tartışmalı olduğu iddia ediliyor.

Deneyler, Google Colab’da统 olarak Tesla K80 GPU’da gerçekleştirildi. Diller, BLEU (Bilingual Evaluation Understudy) puanı ölçütü ve CodeCarbon Makine Öğrenimi Emisyonları Hesaplayıcısı kullanılarak karşılaştırıldı. Veriler 10 epoch boyunca eğitildi.

Bulgular

Araştırmacılar, Almanca ile ilgili dil çiftlerinin uzatılmış eğitim süresinin daha yüksek karbon tüketimine neden olduğunu buldu. Bazı diğer dil çiftleri, örneğin İngilizce>Fransızca ve Fransızca>İngilizce, daha yüksek karbon tüketimine sahip olsa da, daha nhanh eğitildiler ve daha kolay çözüldüler, bu tüketim atakları araştırmacılar tarafından ‘göreceli olarak önemsiz’ olarak karakterize edildi.

Dil çiftlerinin kodlayıcı/decodlayıcı karbon emisyonları tarafından analizi.

Dil çiftlerinin kodlayıcı/decodlayıcı karbon emisyonları tarafından analizi.

Araştırmacılar şöyle diyor:

‘Bulgularımız, bazı dil çiftlerinin diğerlerinden daha karbon yoğun olduğunu net bir şekilde gösteriyor, bu eğilim farklı mimarilerde de devam ediyor.’

Devam ediyorlar:

‘Ancak, belirli bir dil çifti için eğitim modellerinin neden böyle büyük farklılıklar gösterdiği ve farklı mimarilerin bu karbon yoğun dil çiftleri için daha uygun olup olmayacağı ve neden böyle olacağı konusunda hala cevapsız sorular kalıyor.’

Makale, karbon tüketimi farklılıklarının nedenlerinin tamamen net olmadığını vurguluyor. Latin temelli olmayan dillerle bu çalışmayı geliştirmeyi öngörüyorlar.

1.20 pm GMT+2 – Metin hatası düzeltildi.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]