Зв'язатися з нами

Рішення Apple для перекладу гендерних мов

Штучний Інтелект

Рішення Apple для перекладу гендерних мов

mm

опублікований

 on

Фотографія Розеттського каменю з жінкою, що розфокусувалась на задньому плані та дивиться на камінь. Джерело: https://smarthistory.org/the-rosetta-stone/

Apple щойно опублікувала статтю у співпраці з USC, у якій досліджуються методи машинного навчання, які використовуються, щоб надати користувачам її операційної системи iOS18 більше вибору щодо статі, коли мова заходить про переклад.

В iOS18 користувачі можуть вибирати альтернативні гендерні пропозиції для перекладеного слова у власній програмі Перекладач. Джерело: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

В iOS18 користувачі можуть вибирати альтернативні гендерні пропозиції для перекладеного слова у власній програмі Перекладач. Джерело: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Хоча проблеми, вирішені в роботі (про які Apple оголосила тут) певною мірою бере участь у поточних актуальних дебатах навколо визначення статі, вона зосереджується на набагато давнішій проблемі: факті, що 84 із 229 відомих мов світу використовувати гендерну систему за статтю.

Червоні крапки позначають мови, які використовують гендерну систему за статтю. Джерело: https://wals.info/feature/31A#map

Червоні крапки позначають мови, які використовують гендерну систему за статтю. Джерело: https://wals.info/feature/31A#map

Як не дивно, англійська мова відноситься до категорії за ознакою статі, оскільки він призначає займенники чоловічого або жіночого роду однини.

Навпаки, все Романські мови (включаючи понад півмільярда людей Іспаномовні) – і багато інших популярних мов, як-от російська – вимагають узгодження статі таким чином, щоб системи перекладу вирішували визначення статі в мові.

Нова стаття ілюструє це, спостерігаючи за всіма можливими іспанськими перекладами речення Секретарка розсердилася на начальника:

З нової статті приклад потенційного визначення статі в реченні «Секретар розгнівався на боса», переклад з англійської на іспанську. Джерело: https://arxiv.org/pdf/2407.20438

З нової статті приклад потенційного визначення статі в реченні «Секретар розгнівався на боса», переклад з англійської на іспанську. Джерело: https://arxiv.org/pdf/2407.20438

Наївного перекладу далеко не достатньо для довгих текстів, які можуть визначити стать на початку ("він", "Вона"тощо) і після цього більше не посилатися на стать. Тим не менш, переклад повинен пам'ятати присвоєну стать учасника по всьому тексту.

Це може бути складним для підходів на основі токенів, які розглядають переклади окремими фрагментами, і ризикує втратити призначений гендерний контекст протягом усього вмісту.

Гірше того, системи, які надають альтернативні переклади для упередженого визначення статі, не можуть робити це без розбору, тобто простою заміною іменника роду, а повинні гарантувати, що всі інші частини мови узгоджуються зі зміненим іменником роду.

У цьому прикладі з документу Apple/USC ми це бачимо Секретар було присвоєно чоловічий рід, минуле однини було було залишено як жіноче (Я був):

Гендерні заміни грубою силою можуть знехтувати необхідною гендерною згодою. У цьому прикладі слово «enojada» має бути «enojado», щоб погодитися з чоловічим родом «El secretario».

Гендерні заміни грубою силою можуть знехтувати необхідною гендерною згодою. У цьому прикладі слово «enojada» має бути «enojado», щоб погодитися з чоловічим родом «El secretario».

Система перекладу також повинна впоратися з ексцентричністю окремих мов щодо статі. Як зазначається в статті, займенник I на хінді позначено статтю, що дає незвичайний ключ до визначення статі.

Ендерні питання

Перейдіть на вкладку новий папір, Під назвою Створення гендерних альтернатив у машинному перекладі, дослідники Apple і USC пропонують a напівкерований метод для перетворення гендерно неоднозначних сутностей у масив альтернатив на рівні сутності.

Система, яка використовувалася для інформування перекладу з програми Apple Translate в iOS18, створює мовну схему як за допомогою великих мовних моделей (LLM), так і за допомогою тонка настройка попередньо навчені моделі машинного перекладу з відкритим кодом.

Результати перекладів із цих систем були потім навчені в архітектуру, що містить гендерні структури – групи фраз, які містять різноманітні форми іменників різного роду, що представляють ту саму сутність.

У папері зазначено*:

«Відомо, що гендерні упередження, присутні в даних поїздів, проникають у системи обробки природної мови (NLP), що призводить до поширення та посилення потенціалу тих упереджень. Такі упередження часто є основною причиною помилок.

«Система машинного перекладу (MT) може, наприклад, перекладіть лікар іспанським терміном médico (чоловічий рід) замість médica (жіночий рід), враховуючи введення «Лікар попросив медсестру допомогти їй під час процедури».

«Щоб уникнути неправильного присвоєння статі, системам МТ необхідно усунути неоднозначність статі через контекст. Якщо правильну стать неможливо визначити за допомогою контексту, розумним підходом є надання кількох варіантів перекладу, які охоплюють усі дійсні варіанти статі».

Підхід, до якого прийшли дослідники, ефективно перетворює переклад з одного токена на контрольований користувачем масив.

(Хоча в документі про це не згадується, це відкриває можливість, або в Apple Translate, або на подібних порталах, які пропонують послуги перекладу, для того, щоб вибір користувача повертався в наступні ітерації моделі)

Модель, розроблену Apple і USC, була оцінена на GATE та MT-GenEval тестові набори. GATE містить вихідні речення з до 3 гендерно неоднозначними об’єктами, тоді як MT-GenEval містить матеріал, де не можна визначити стать, що, за словами авторів, допомагає зрозуміти, коли альтернативні гендерні варіанти не слід пропонувати користувачеві.

В обох випадках набори тестів мали бути повторно анотовані, щоб узгодити їх із цілями проекту.

Щоб навчити систему, дослідники покладалися на нову автоматику збільшення даних алгоритм, на відміну від вищезгаданих наборів тестів, які анотували люди.

Були надані набори даних для курації Apple Європарл; WikiTitlesІ WikiMatrix. Корпуси поділялися на G-тег (з 12,000 XNUMX речень), що охоплює речення с слова голови для всіх сутностей разом із гендерно неоднозначною анотацією; і G-Trans (з 50,000 XNUMX речень), що містять гендерно неоднозначні сутності та гендерні вирівнювання.

Автори стверджують:

«Наскільки нам відомо, це перший великомасштабний корпус, який містить гендерні двозначності та те, як вони впливають на гендерні форми в перекладі».

Були набори даних і різноманітні дані для проекту доступний на GitHub. Дані містять п’ять мовних пар, які порівнюють англійську з російською, німецькою, французькою, португальською та іспанською.

Автори використали попередній підхід з 2019 року, щоб надати моделі можливість виводити гендерні вирівнювання, навчання з перехресна ентропія від і додатковий втрата вирівнювання.

Що стосується процедури збільшення даних, автори уникали традиційної процедури метод на основі правилs за підхід, орієнтований на дані, точне налаштування a БЕРТ попередньо навчена мовна модель на наборі даних G-Tag.

Double-Take

Для випадків, коли виявляються неоднозначні гендерні сутності, Apple і USC досліджували два методи – тонке налаштування попередньо навчених мовних моделей і використання LLM.

Стосовно першого методу в документі зазначено:

«Ми налаштовуємо попередньо навчену модель МТ M на бітекст, витягнутий із набору даних G-Trans. Вихідні речення цього подвійного тексту містять неоднозначні сутності, позначені тегами чоловічого або жіночого роду за допомогою / теги, і цільовий переклад має правильні родові зміни з урахуванням гендерних тегів.'

Ілюстрація схеми для вилучення бітексту з набору даних G-Trans.

Ілюстрація схеми для вилучення бітексту з набору даних G-Trans.

На зображенні вище ми бачимо тонко налаштований текст у нижньому середньому стовпчику та бажаний результат у правому стовпчику з основним обґрунтуванням, проілюстрованим вище.

Для цього підходу автори використали a решітка метод від ан роботи раніше 2020 року. Щоб переконатися, що адресовано лише цільовий домен (стать), a обмежений пошук променя використовувався як фільтр.

Для підходу LLM автори розробили стратегію, яка використовує LLM як редактора, переписуючи надані переклади, щоб забезпечити гендерні призначення.

LLM отримує запит із використанням прикладу в контексті, щоб призначити стать.

LLM отримує запит із використанням прикладу в контексті, щоб призначити стать.

Після об’єднання результатів обох підходів модель згодом була налаштована для класифікації вихідних токенів як вирівняні (позначено «1» на схемі нижче) або позаблоковий (позначено «2» нижче).

Схема для конкатенації результатів обох підходів.

Схема для конкатенації результатів обох підходів.

Дані та тести

Команда неоднозначна сутність детектор, використаний для проекту, був розроблений шляхом тонкого налаштування ШІ Facebook  xlm-roberta-великий модель, використовуючи Трансформатори. Для цього комбінований G-тег використовувався для всіх п’яти мовних пар.

У першому з двох вищезгаданих підходів M2M 1.2B модель пройшла навчання на Fairseq, разом із двотекстовими даними з набору даних G-Trans, із змінами статі, наданими Вікісловником.

Для методу LLM автори використовували ГПТ-3.5-турбо. Для вирівнювання гендерних структур знову використовувався xlm-roberta-large, цього разу з гендерними вирівнюваннями, отриманими з G-Trans.

Метрики для оцінки альтернатив, структура (з точність та згадувати), А також точність вирівнювання.

Хоча перші два з них не потребують пояснень, точність вирівнювання вимірює відсоток вихідних гендерних структур, які відповідають відомій правильній ідентифікації джерела, і використовує Метод δ-BLEU, відповідно до методології MT-GenEval.

Нижче наведено результати для конвеєра розширення даних:

Результати тестів на розширення даних. Стрілки вгору вказують на «вище, тим краще», вниз «нижче, тим краще».

Результати тестів на розширення даних. Стрілки вгору вказують на «вище, тим краще», вниз «нижче, тим краще».

Ось коментарі авторів*:

«Як M2M, так і GPT працюють приблизно на одному рівні, за винятком англійсько-російської мови, де GPT досягає набагато нижчого рівня запам’ятовування альтернатив (58.7 порівняно з 89.3). Як видно з показників структури, якість створених гендерних структур краща для GPT на англо-німецькій та англо-португальській мовах і краща для M2M на англо-іспанській та англо-російській мовах.

«Зауважте, що у нас немає даних G-Trans для англійської та італійської мови, тому результати моделі M2M і точність вирівнювання для англійської та італійської мови є виключно результатом нульового узагальнення Моделі M2M і XLM.'

Дослідники також порівняли продуктивність системи доповнення даних через M2M із гендерним переписувачем GATE на рівні речення згідно з умовами GATE.

Конвеєр розширення даних Apple/USC протистояв методу рівня речень GATE.

Конвеєр розширення даних Apple/USC протистояв методу рівня речень GATE.

Тут у папері зазначено:

«Ми бачимо значні покращення в запам’ятовуванні за рахунок відносно невеликого погіршення точності (за винятком англо-італійської мови). Наша система здатна перевершити GATE за запропонованим показником F.5 для всіх 3 мовних пар».

Нарешті, автори навчили різноманітні «ванільні» багатомовні моделі ванільний двотекст. Наборами даних, що внесли внесок, були WikiMatrix, WikiTitles, Мульти-ООН, НовиниКоментар та тильда.

Було навчено дві додаткові моделі, одна з яких включає набір даних G-Trans із префіксом тегу , яка була використана як контрольована базова лінія; і по-третє, враховуючи гендерну структуру та вирівнювання (у меншій локальній моделі, оскільки використання служб на основі API GPT було б дуже дорогим для цієї мети).

Моделі були протестовані на 2022 рік FloRes набір даних.

Перевірені наскрізні моделі машинного перекладу (P = точність, R = відкликання).

Перевірені наскрізні моделі машинного перекладу (P = точність, R = відкликання).

У документі узагальнено ці результати:

«Ванільна модель не може генерувати альтернативи та демонструє величезне упередження до генерування форм чоловічого роду (δ-BLEU в діапазоні від 5.3 до 12.5 балів).

«Це упередження значно зменшується контрольованою базовою лінією. Модель, навчена на розширених даних, додатково зменшує зміщення та отримує найкращу продуктивність з точки зору альтернативних показників, точності вирівнювання та δ-BLEU.

«Це демонструє ефективність конвеєра розширення даних. Доповнені дані також дозволяють нам навчити конкурентоспроможну систему для англійської та італійської мов, у якій відсутні контрольовані дані».

На завершення автори зазначають, що успіх моделі слід розглядати в ширшому контексті боротьби НЛП за раціоналізацію визначення статі в методі перекладу; і вони зазначають, що це залишається відкритою проблемою.

Хоча дослідники вважають, що отримані результати не повністю досягають мети створення гендерно-нейтральних перекладів на рівні сутності та/або неоднозначності щодо статі, вони вважають, що ця робота є «потужним інструментом» для майбутніх досліджень одного з найскладніші сфери машинного перекладу.

 

* Моє перетворення внутрішніх цитат авторів на гіперпосилання

Вперше опубліковано у вівторок, 8 жовтня 2024 р