Bizimle iletişime geçin

Yapay Zeka

Facebook, 100 Farklı Dil Arasında Doğrudan Çeviri Yapabilen Makine Çevirisi Modeli Oluşturuyor

mm

Facebook son zamanlarda geliştirdi yeni bir makine çevirisi modeli 100 dillik bir diziden herhangi bir dil çifti arasında metin çevirebilen. Diğer makine çevirisi sistemleri mevcut olsa da, diğer birçok yapay zeka çeviri sistemi, önce metni İngilizceye çevirerek ve ardından metni oradan çevirerek çalışır.  Engadget'in bildirdiği gibi, Facebook'un AI tercümanı aracı olarak İngilizce kullanmadan çalışıyor ve yaklaşık %90 doğruluk elde edebildiği bildiriliyor.

Facebook'un AI modeli için eğitim verileri, 7.5 farklı dile dağıtılan yaklaşık 100 milyar çift cümleden oluşuyordu. Veriler, bir dizi web gezgini kullanılarak web'den derlendi ve toplanan verilerde bulunan diller, FastText adlı bir dil modeli kullanılarak tanımlandı. Veriler toplandıktan sonra, LASER 2.0 adlı bir araçla çalıştırıldı Farklı cümle örneklerinin anlamlarını çıkarmak ve farklı dillerdeki cümleleri anlamlarına göre eşleştirmek. LASER 2.0, Facebook tarafından geliştirildi ve yerleştirmeler oluşturmak için denetimsiz öğrenme algoritmaları kullanıyor. Cümle yerleştirmeleri, kullanım sıklığı ve cümlelerin birbirine ne kadar yakın göründüğü gibi özelliklere bağlı olarak farklı cümleler arasındaki ilişkiler hakkında bilgi içerir. LASER 2.0 daha sonra oldukça benzer anlamlara sahip cümleler yığını oluşturabiliyor.

Eğitim verileri sadece cümle anlamlarına göre eşleştirilmedi. Dillerin kendileri birlikte gruplandırılmıştır. Amaç, İngilizce'nin iki dil arasında bir araç olarak kullanılmasını gerektirmeyen bir sistem tasarlamaktı ve projeye liderlik eden Facebook'tan Angela Fan, dünyadaki birçok bölgenin İngilizce olmayan iki dil konuştuğuna dikkat çekti. Facebook mühendisleri, yaygın olarak birbirine ve birbirlerinden çevrilen dilleri eşleştirmeye odaklanarak eğitim gerçekleştirdiler. Kültür, dilsel benzerlikler ve coğrafya gibi değişkenlere dayalı olarak on dört farklı dil grubu oluşturuldu. Örnek olarak, araştırmacılar tarafından oluşturulan dil gruplarından biri, Urduca, Tamilce, Hintçe ve Bengalce dillerini içeren Hindistan genelinde en yaygın dilleri içeriyordu. Bu, yaygın olarak eşleştirilmiş dillerin yüksek kaliteli çeviriler alması için yapıldı.

Dil grubu odaklı eğitim yöntemi bazı ilginç sonuçlara yol açmaktadır. Ortaya çıkan çeviri modelinin, belirli dil eşleştirmeleri için şu anda mevcut olan modellerden daha fazla doğruluğa sahip olduğu bulundu. Örneğin, İngilizce ve Beyaz Rusça arasında çeviri yaparken yapay zeka, Rusça çeviri sırasında öğrendiği belirli kalıpları uygulayabildi çünkü Beyaz Rusça ile Rusça arasında dilsel benzerlikler var. Benzer şekilde, İspanyolca en çok konuşulan ikinci dil olduğundan ve görev için önemli miktarda eğitim verisi olduğundan, İspanyolca ve Portekizce arasındaki çeviri çabaları arttı.

Çeviri sisteminin henüz kapsamadığı yaklaşık altmış dil var ve modelin çok fazla eğitim verisi olmayan dillerdeki doğruluğunun kullanıma hazır hale gelmesi için iyileştirilmesi gerekiyor. Güneydoğu Asya ve Afrika'daki birçok dil, güvenilir bir model yetiştirmek için gereken veri hacminden yoksundur. Araştırma ekibinin bu veri eksikliğini telafi etmenin bir yolunu bulması gerekecektir. Araştırma ekibinin ayrıca, modelin öğrenmiş olabileceği herhangi bir ırkçı, cinsiyetçi veya diğer din dışı kalıpları nasıl kontrol edeceğini belirlemesi gerekiyor. Araştırma ekibi bir küfür filtresi kullansa da, filtre esas olarak İngilizce veriler üzerinde çalışır.

Facebook'un sosyal medya platformunda henüz makine çevirisi sistemi devreye alınmadı. Mevcut model sadece araştırma amaçlıdır. Ancak Facebook, benzer modeller tasarlamak ve sitenin her gün aldığı yaklaşık 20 milyar çeviri talebini bu modellerin işlemesini sağlamak için hazırlanıyor.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenmesi ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.