الذكاء الاصطناعي

حل شركة آبل لترجمة اللغات التي تعتمد على الجنس

تم النشر 8 أكتوبر 2024

مارتن أندرسون

صورة لحجر رشيد، مع امرأة غير واضحة في الخلفية تنظر إلى الحجر. المصدر: https://smarthistory.org/the-rosetta-stone/

نشرت شركة Apple للتو ورقة بحثية، بالتعاون مع جامعة جنوب كاليفورنيا، تستكشف أساليب التعلم الآلي المستخدمة لمنح مستخدمي نظام التشغيل iOS 18 المزيد من الاختيار بشأن الجنس عندما يتعلق الأمر بالترجمة.

في نظام التشغيل iOS18، يمكن للمستخدمين تحديد اقتراحات بديلة للجنس لكلمة مترجمة في تطبيق الترجمة الأصلي. المصدر: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

في نظام التشغيل iOS 18، يمكن للمستخدمين تحديد اقتراحات جنسانية بديلة لكلمة مترجمة في تطبيق الترجمة الأصلي. المصدر: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

على الرغم من القضايا التي تمت معالجتها في العمل (الذي أعلنت عنه شركة Apple اضغط هنا) تشارك، إلى حد ما، في المناقشات الحالية حول تعريفات الجنس، وهي تركز على مشكلة أقدم بكثير: حقيقة أن 84 من أصل 229 لغة معروفة في العالم استخدم نظامًا قائمًا على الجنس لتحديد الجنس.

تشير النقاط الحمراء إلى اللغات التي تستخدم نظامًا قائمًا على الجنس. المصدر: https://wals.info/feature/31A#map

تشير النقاط الحمراء إلى اللغات التي تستخدم نظامًا جنسانيًا يعتمد على الجنس. المصدر: https://wals.info/feature/31A#map

من المثير للدهشة أن اللغة الإنجليزية يقع ضمن فئة الجنس، لأنه يعين ضمائر مفردة مذكر أو مؤنث.

وعلى النقيض من ذلك، كل اللغات الرومانسية (بما في ذلك أكثر من نصف مليار تتطلب اللغات المختلفة (اللغة الإنجليزية) -وغيرها من اللغات الشعبية، مثل الروسية- الاتفاق على الجنس بطرق تجبر أنظمة الترجمة على معالجة تحديد الجنس في اللغة.

يوضح البحث الجديد ذلك من خلال ملاحظة جميع الترجمات الإسبانية الممكنة للجملة كانت السكرتيرة غاضبة من الرئيس:

من الورقة البحثية الجديدة، مثال على التعيينات المحتملة للجنس في الجملة "كانت السكرتيرة غاضبة من رئيسها"، مترجمة من الإنجليزية إلى الإسبانية. المصدر: https://arxiv.org/pdf/2407.20438

من الورقة الجديدة، مثال على التعيينات المحتملة بين الجنسين في الجملة "كانت السكرتيرة غاضبة من رئيسها"، مترجمة من الإنجليزية إلى الإسبانية. المصدر: https://arxiv.org/pdf/2407.20438

الترجمة الساذجة ليست كافية على الإطلاق للنصوص الأطول، والتي قد تحدد الجنس في البداية ('هو', 'هي'، إلخ) ثم لا تشير بعد ذلك إلى الجنس مرة أخرى. ومع ذلك، يجب أن تتذكر الترجمة الجنس المخصص للمشارك في جميع أنحاء النص.

يمكن أن يشكل هذا تحديًا للطرق القائمة على الرموز والتي تعالج الترجمات في أجزاء منفصلة، وقد يؤدي إلى فقدان سياق الجنس المخصص طوال مدة المحتوى.

والأسوأ من ذلك أن الأنظمة التي توفر ترجمات بديلة لتعيينات الجنس المتحيزة لا تستطيع أن تفعل ذلك دون تمييز، أي عن طريق استبدال اسم الجنس فقط، بل يجب أن تضمن أن جميع الأجزاء الأخرى من اللغة تتفق مع اسم الجنس المتغير.

في هذا المثال من ورقة Apple/USC، نرى أنه على الرغم من سكرتير تم تعيينه لجنس مذكر، الماضي المفرد وكان لقد تم تركها كمؤنثة (estaba):

إن استبدال الجنس بالقوة الغاشمة قد يتجاهل الاتفاق الضروري بين الجنسين. في هذا المثال، يجب أن تكون كلمة "enojada" هي "enojado"، لتتفق مع المذكر "El secretario".

قد تُهمل عمليات استبدال الجنس القسرية التوافقَ الضروري بين الجنسين. في هذا المثال، ينبغي أن تكون كلمة "enojada" هي "enojado"، لتتوافق مع المذكر "El secretario".

يجب على نظام الترجمة أيضًا أن يتعامل مع غرائب اللغات المعينة فيما يتعلق بالجنس. وكما تشير الورقة، فإن الضمير I يتم تحديد الجنس في اللغة الهندية، مما يوفر دليلاً غير شائع على الجنس.

القضايا الجنسانية

في خانة رمز الخصم، أدخل TABBYDAY. ورقة جديدة، بعنوان توليد بدائل جنسانية في الترجمة الآليةيقترح باحثو Apple وUSC شبه أشرف طريقة لتحويل الكيانات الغامضة من حيث الجنس إلى مجموعة من البدائل على مستوى الكيان.

يقوم النظام، الذي تم استخدامه لإبلاغ الترجمة من تطبيق Apple Translate في iOS18، بإنشاء مخطط لغوي من خلال استخدام نماذج اللغة الكبيرة (LLMs)، ومن خلال الكون المثالى نماذج الترجمة الآلية مفتوحة المصدر المدربة مسبقًا.

تم تدريب النتائج من الترجمات من هذه الأنظمة على بنية تحتوي على هياكل الجنس - مجموعات من العبارات التي تحتوي على أشكال متنوعة من الأسماء ذات الجنس المختلف والتي تمثل نفس الكيان.

تقول الورقة *:

"من المعروف أن التحيزات الجنسانية الموجودة في بيانات القطارات تتسرب إلى أنظمة معالجة اللغة الطبيعية (NLP)، مما يؤدي إلى الانتشار تضخيم محتمل من بين هذه التحيزات، والتي غالبًا ما تكون أيضًا السبب الجذري للأخطاء.

"قد يكون نظام الترجمة الآلية (MT)، على سبيل المثال، ترجمة كلمة طبيب إلى المصطلح الإسباني médico (مذكر) بدلاً من médica (مؤنث)، مع الأخذ بعين الاعتبار المدخل "طلب الطبيب من الممرضة مساعدتها في الإجراء".

لتجنب تحديد جنس خاطئ، يجب على أنظمة الترجمة الآلية توضيح الجنس من خلال السياق. عندما يتعذر تحديد الجنس الصحيح من خلال السياق، يُعدّ توفير بدائل ترجمة متعددة تغطي جميع خيارات الجنس الصحيحة نهجًا معقولًا.

النهج الذي توصل إليه الباحثون يحول بشكل فعال الترجمة من رمز واحد إلى مجموعة يتحكم فيها المستخدم.

(على الرغم من أن الورقة البحثية لا تذكر ذلك، فإن هذا يفتح الإمكانية، إما في Apple Translate أو في بوابات مماثلة تقدم خدمات الترجمة، لإدخال اختيارات المستخدم مرة أخرى في تكرارات لاحقة من النموذج)

تم تقييم النموذج الذي طورته Apple وUSC على GATE و MT-GenEval تحتوي GATE على جمل مصدرية تحتوي على ما يصل إلى 3 كيانات غامضة الجنس، بينما تحتوي MT-GenEval على مواد لا يمكن استنتاج الجنس فيها، وهو ما يساعد، كما يقول المؤلفون، في فهم متى لا ينبغي تقديم خيارات جنس بديلة للمستخدم.

في كلتا الحالتين، كان لا بد من إعادة شرح مجموعات الاختبار، لتتماشى مع أهداف المشروع.

لتدريب النظام، اعتمد الباحثون على نظام آلي جديد زيادة البيانات خوارزمية، على النقيض من مجموعات الاختبار المذكورة أعلاه، والتي تم شرحها من قبل البشر.

كانت مجموعات البيانات المساهمة في تنظيم Apple هي Europarl; ويكيتيلز، و ويكي ماتريكس. تم تقسيم المجموعات إلى جي تاغ (مع 12,000 جملة)، بما في ذلك الجمل التي تحتوي على كلمات رئيسية لجميع الكيانات، مع ملاحظة غامضة بشأن الجنس؛ و جي ترانس (مع 50,000 جملة)، تحتوي على كيانات غامضة الجنس ومحاذاة الجنس.

يؤكد المؤلفون:

"على حد علمنا، هذا هو أول مجموعة واسعة النطاق تحتوي على غموضات الجنس وكيفية تأثيرها على الأشكال الجنسانية في الترجمة."

تم توفير مجموعات البيانات والبيانات المتنوعة للمشروع متاح على GitHubتتضمن البيانات خمسة أزواج لغوية، حيث تتنافس اللغة الإنجليزية مع الروسية والألمانية والفرنسية والبرتغالية والإسبانية.

استفاد المؤلفون نهج مسبق من عام 2019 لتزويد النموذج بالقدرة على إخراج محاذاة الجنس والتدريب مع عبر الانتروبيا خسارة و إضافي فقدان المحاذاة.

بالنسبة لروتين زيادة البيانات، تجنب المؤلفون الطرق التقليدية طريقة قائمة على القواعدلصالح نهج يركز على البيانات، وضبط البيانات بشكل دقيق بيرت نموذج لغوي مدرب مسبقًا على مجموعة بيانات G-Tag.

رد فعل متأخر

بالنسبة للحالات التي تم فيها اكتشاف كيانات جنسية غامضة، استكشفت Apple وUSC طريقتين - الضبط الدقيق لنماذج اللغة المدربة مسبقًا، واستخدام LLMs.

وفيما يتعلق بالطريقة الأولى، جاء في الورقة:

"نقوم بضبط نموذج الترجمة الآلية المدرب مسبقًا M على نص ثنائي مستخرج من مجموعة بيانات G-Trans. تحتوي الجمل المصدرية لهذا النص الثنائي على كيانات غامضة تم وضع علامة عليها كمذكر أو مؤنث باستخدام / "العلامات، والترجمة المستهدفة لها انحرافات جنسية صحيحة بالنظر إلى علامات الجنس."

رسم توضيحي للمخطط لاستخراج النص الثنائي من مجموعة بيانات G-Trans.

في الصورة أعلاه، نرى النص المحدد بدقة في العمود الأوسط السفلي، والإخراج المطلوب في العمود الأيمن، مع الأساس المنطقي الأساسي الموضح أعلاه.

بالنسبة لهذا النهج، استخدم المؤلفون إعادة تسجيل الشبكة طريقة من العمل في وقت سابق من عام 2020. للتأكد من معالجة المجال المستهدف فقط (الجنس)، البحث باستخدام شعاع مقيد تم استخدامه كمرشح.

بالنسبة لمنهج الماجستير في القانون، ابتكر المؤلفون استراتيجية تستخدم ماجستير في القانون كمحرر، من خلال إعادة كتابة الترجمات المقدمة لتوفير مهام الجنس.

يتم حث ماجستير القانون على استخدام مثال ضمن السياق من أجل تحديد الجنس.

مع النتائج من كلا النهجين المترابطين، تم ضبط النموذج لاحقًا لتصنيف رموز المصدر على أنها الانحياز (المشار إليها بالرقم "1" في المخطط أدناه) أو غير الانحياز (كما هو موضح بالرقم "2" أدناه).

مخطط لتسلسل النتائج من كلا النهجين.

البيانات والاختبارات

استخدم كيان غامض تم تطوير الكاشف المستخدم للمشروع من خلال ضبط الذكاء الاصطناعي الخاص بفيسبوك xlm-روبرتا-كبير نموذج باستخدام محولاتولتحقيق هذه الغاية، تم استخدام علامة G المجمعة في جميع أزواج اللغات الخمسة.

في النهج الأول من النهجين المذكورين أعلاه، م2م 1.2 مليار تم تدريب النموذج على فيرسيك، بالاشتراك مع بيانات ثنائية النص من مجموعة بيانات G-Trans، مع انعطافات الجنس المقدمة من ويكاموس.

بالنسبة لطريقة LLM، استخدم المؤلفون GPT-3.5-تيربو. لمحاذاة هياكل الجنس، تم استخدام xlm-roberta-large مرة أخرى، هذه المرة مع محاذاة الجنس المستخرجة من G-Trans.

مقاييس لتقييم البدائل والبنية (مع دقة و تذكر)، و دقة المحاذاة.

على الرغم من أن أول اثنين من هذه الأمور واضحة بذاتها، فإن دقة المحاذاة تقيس النسبة المئوية لهياكل النوع الناتجة التي تتوافق مع هوية المصدر الصحيحة المعروفة، وتستخدم طريقة δ-BLEU، وفقًا لمنهجية MT-GenEval.

فيما يلي نتائج خط أنابيب زيادة البيانات:

نتائج اختبارات زيادة البيانات. تشير الأسهم المتجهة للأعلى إلى "كلما كان أعلى كان أفضل"، وتشير الأسهم المتجهة للأسفل إلى "كلما كان أقل كان أفضل".

نتائج اختبارات زيادة البيانات. تشير الأسهم المتجهّة للأعلى إلى "الأعلى هو الأفضل"، والأسهم المتجهّة للأسفل إلى "الأقل هو الأفضل".

وهنا تعليق المؤلفين*:

"يحقق كل من M2M وGPT أداءً متساويًا في الغالب باستثناء الإنجليزية والروسية، حيث يحقق GPT تذكرًا أقل بكثير للبدائل (58.7 مقارنة بـ 89.3). إن جودة هياكل النوع الاجتماعي المولدة أفضل بالنسبة لـ GPT في الإنجليزية والألمانية والإنجليزية والبرتغالية وأفضل بالنسبة لـ M2M في الإنجليزية والإسبانية والإنجليزية والروسية، كما يمكن رؤيته من مقاييس الهيكل.

"لاحظ أنه ليس لدينا أي بيانات G-Trans للغة الإنجليزية الإيطالية، لذا فإن نتائج نموذج M2M ودقة المحاذاة للغة الإنجليزية الإيطالية ترجع بحتة إلى تعميم اللقطة الصفرية لـ نماذج M2M وXLM".

كما قارن الباحثون أداء نظام زيادة البيانات، عبر M2M، مع إعادة كتابة النوع الاجتماعي على مستوى الجملة في GATE، وفقًا لشروط GATE المعلنة.

تم مواجهة خط أنابيب زيادة البيانات الخاص بـ Apple/USC مع طريقة GATE على مستوى الجملة.

وجاء في الورقة هنا:

نلاحظ تحسنًا ملحوظًا في التذكر على حساب تدهور طفيف نسبيًا في الدقة (باستثناء الإنجليزية والإيطالية). نظامنا قادر على التفوق على GATE في مقياس F.5 المقترح على جميع أزواج اللغات الثلاثة.

أخيرًا، قام المؤلفون بتدريب نماذج متعددة اللغات "التقليدية" المتنوعة نص ثنائي الفانيلياكانت مجموعات البيانات المساهمة هي WikiMatrix، ويكيتيلز, الأمم المتحدة المتعددة, أخبارتعليقو تيلدا.

تم تدريب نموذجين إضافيين، أحدهما يتضمن مجموعة بيانات G-Trans مع العلامة المسبقة ، والذي تم استخدامه كخط أساس مشرف؛ وثالث، يتضمن هيكل الجنس والتوافقات (على النموذج المحلي الأصغر، نظرًا لأن استخدام خدمات GPT القائمة على واجهة برمجة التطبيقات كان ليكون مكلفًا للغاية لهذا الغرض).

تم اختبار النماذج مقابل 2022 فلوريس مجموعة البيانات.

تم اختبار نماذج الترجمة الآلية الشاملة (P = الدقة، R = التذكر).

تلخص الورقة هذه النتائج:

"لا يستطيع النموذج الأساسي توليد بدائل ويظهر تحيزًا كبيرًا نحو توليد الأشكال المذكرة (δ-BLEU يتراوح من 5.3 إلى 12.5 نقطة).

"يتم تقليل هذا التحيز بشكل كبير من خلال خط الأساس الخاضع للإشراف. يعمل النموذج المدرب على البيانات المعززة على تقليل التحيز بشكل أكبر ويحصل على أفضل أداء من حيث المقاييس البديلة ودقة المحاذاة وδ-BLEU.

يُظهر هذا فعالية خط أنابيب تعزيز البيانات. كما تُمكّننا البيانات المُعزّزة من تدريب نظام تنافسي للغة الإنجليزية والإيطالية يفتقر إلى البيانات المُراقَبة.

ويختتم المؤلفون بالإشارة إلى أن نجاح النموذج يجب أن يؤخذ في الاعتبار في السياق الأوسع لنضال البرمجة اللغوية العصبية لترشيد تعيين الجنس في طريقة الترجمة؛ ويشيرون إلى أن هذه تظل مشكلة مفتوحة.

على الرغم من أن الباحثين يعتبرون أن النتائج التي تم الحصول عليها لا تحقق بشكل كامل هدف توليد ترجمات محايدة بين الجنسين على مستوى الكيان و/أو إزالة الغموض فيما يتعلق بالجنس، إلا أنهم يعتقدون أن هذا العمل "أداة قوية" للاستكشافات المستقبلية في أحد أكثر مجالات الترجمة الآلية تحديًا.

* تحويلي لاقتباسات المؤلفين المضمنة إلى روابط تشعبية

نُشرت لأول مرة يوم الثلاثاء 8 أكتوبر 2024

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai