الذكاء الاصطناعي
فيسبوك يُطوّر نموذج ترجمة آلي يمكنه الترجمة المباشرة بين 100 لغة مختلفة

قام فيسبوك مؤخرًا بتطوير نموذج ترجمة آلي جديد يمكنه ترجمة النصوص بين أي زوج من اللغات من مجموعة مكونة من 100 لغة. بينما توجد أنظمة ترجمة آلية أخرى، تعمل معظم أنظمة الترجمة الآلية الأخرى عن طريق الترجمة أولًا إلى اللغة الإنجليزية ثم تحويل النص من هناك. كما ذكرت Engadget ، يعمل مترجم فيسبوك الآلي بدون استخدام اللغة الإنجليزية كوسيط، ويُreported أنه يمكنه تحقيق دقة تقارب 90٪.
كانت بيانات التدريب لنموذج فيسبوك الآلي مكونة من حوالي 7.5 مليار زوج من الجمل، موزعة على 100 لغة مختلفة. تم تجميع البيانات من الويب باستخدام سلسلة من زحف الويب، وتم تحديد اللغات الموجودة في البيانات المحصلة باستخدام نموذج لغة يسمى FastText. بعد جمع البيانات، تم تشغيلها عبر أداة تسمى LASER 2.0 لاستخراج معنى عينات الجمل المختلفة وتماثل الجمل في اللغات المختلفة معًا بناءً على معناها. تم تطوير LASER 2.0 بواسطة فيسبوك ويتضمن خوارزميات التعلم غير الموجه لإنشاء التضمين. تحتوي تضمين الجمل على معلومات حول العلاقات بين الجمل المختلفة بناءً على ميزات مثل تكرار الاستخدام وكيف قرب الجمل من بعضها البعض. ثم يمكن لـ LASER 2.0 إنشاء أزواج من الجمل التي لها معاني متشابهة جدًا.
لم تكن بيانات التدريب مجرد زوج بناءً على معاني الجمل. تم تجميع اللغات نفسها معًا. كان الهدف هو تصميم نظام لا يتطلب استخدام اللغة الإنجليزية كوسيط بين لغة وآخر، حيث أشارت أنجيلا فان من فيسبوك، التي قادت المشروع، إلى أن العديد من المناطق حول العالم تتحدث لغة واحدة أو لغات ليست الإنجليزية. قام مهندسو فيسبوك بتنفيذ التدريب بالتركيز على تجميع اللغات التي يتم ترجمتها بشكل شائع من وإلى بعضها البعض. تم إنشاء 14 مجموعة لغة مختلفة، بناءً على متغيرات مثل الثقافة والتشابه اللغوي والجغرافيا. على سبيل المثال، تحتوي واحدة من المجموعات اللغوية التي أنشأها الباحثون على اللغات الأكثر شيوعًا في جميع أنحاء الهند، والتي تشمل اللغات الأردية والتاميلية والهندية والبنغالية. تم القيام بذلك حتى تحصل اللغات الشائعة على ترجمات عالية الجودة.
أدى نهج التدريب المتمحور حول المجموعة اللغوية إلى بعض النتائج المثيرة. تم العثور على أن نموذج الترجمة الناتج كان أكثر دقة من النماذج الحالية لبعض أزواج اللغات. على سبيل المثال، عند الترجمة بين اللغة الإنجليزية والبيلاروسية، كان بإمكان الآلة تطبيق بعض الأنماط التي تعلمتها عند الترجمة من اللغة الروسية لأن اللغة البيلاروسية لها تشابهات لغوية مع اللغة الروسية. وبالمثل، تحسنت جهود الترجمة بين اللغة الإسبانية والبرتغالية لأن اللغة الإسبانية هي اللغة الثانية الأكثر تحدثًا وهناك حجم كبير من بيانات التدريب للمهمة.
هناك حوالي ستين لغة لا تغطيها نظام الترجمة بعد، ويتعين تحسين دقة النموذج على اللغات التي لا تتوفر لديها كمية كبيرة من بيانات التدريب قبل أن تكون جاهزة للاستخدام. تفتقر العديد من اللغات في جميع أنحاء جنوب شرق آسيا وأفريقيا إلى حجم البيانات المطلوب لتدريب نموذج موثوق. سيتعين على فريق البحث تحديد طريقة لتعويض نقص البيانات. كما سيتعين على فريق البحث تحديد كيفية التحكم في أي أنماط عنصرية أو جنسانية أو فاحشة قد تعلمها النموذج. بينما استخدم فريق البحث مرشحًا للفحش، يعمل المرشح بشكل رئيسي على البيانات الإنجليزية.
لم يتم استخدام نظام الترجمة الآلي على منصة فيسبوك الاجتماعية بعد. النموذج الحالي هو لأغراض البحث فقط. ومع ذلك، يجهز فيسبوك لتصميم نماذج مماثلة وجعلها تتعامل مع حوالي 20 مليار طلب ترجمة يتلقاها الموقع كل يوم.








