Connect with us

Решение Apple для перевода гендерных языков

Искусственный интеллект

Решение Apple для перевода гендерных языков

mm
A photo of the Rosetta Stone, with a woman out of focus in the background, looking at the stone. Source: https://smarthistory.org/the-rosetta-stone/

Apple только что опубликовала статью, в сотрудничестве с USC, которая исследует методы машинного обучения, используемые для предоставления пользователям операционной системы iOS18 больше выбора по гендеру при переводе.

В iOS18 пользователи могут выбрать альтернативные предложения гендера для переведенного слова в родном приложении Translate. Source: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

В iOS18 пользователи могут выбрать альтернативные предложения гендера для переведенного слова в родном приложении Translate. Source: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Хотя проблемы, рассматриваемые в работе (которую Apple объявила здесь), участвуют, в определенной степени, в текущих актуальных дебатах вокруг определений гендера, они сосредоточены на гораздо более старой проблеме: том, что 84 из 229 известных языков мира используют систему гендера, основанную на поле.

Красные точки указывают языки, которые используют систему гендера, основанную на поле. Source: https://wals.info/feature/31A#map

Красные точки указывают языки, которые используют систему гендера, основанную на поле. Source: https://wals.info/feature/31A#map

Удивительно, что английский язык попадает в категорию, основанную на поле, потому что он присваивает мужские или женские единственные местоимения.

Напротив, все романские языки (включая более половину миллиарда говорящих на испанском языке) – и множество других популярных языков, таких как русский – требуют согласования гендера способами, которые заставляют системы перевода решать проблему присвоения пола в языке.

Новая статья иллюстрирует это, наблюдая все возможные испанские переводы предложения Секретарь был зол на босса:

Из новой статьи, пример потенциальных назначений гендера в предложении 'Секретарь был зол на босса', переводящего с английского на испанский. Source: https://arxiv.org/pdf/2407.20438

Из новой статьи, пример потенциальных назначений гендера в предложении ‘Секретарь был зол на босса’, переводящего с английского на испанский. Source: https://arxiv.org/pdf/2407.20438

Наивный перевод далеко не достаточен для более длинных текстов, которые могут установить гендер в начале (‘Он’, ‘Она’ и т. д.) и после этого не обращаться к гендеру снова. Тем не менее, перевод должен помнить присвоенный гендер участника на протяжении всего текста.

Это может быть сложно для токен-ориентированных подходов, которые решают переводы в дискретных фрагментах, и рискуют потерять контекст гендера на протяжении всего содержания.

Хуже, системы, которые предоставляют альтернативные переводы для предвзятых назначений гендера, не могут делать это бездумно, т. е. просто заменяя существительное гендера, но должны обеспечить, чтобы все другие части языка согласовывались с измененным существительным гендера.

В этом примере из статьи Apple/USC мы видим, что хотя Секретарь был назначен мужской гендер, единственное прошедшее был было оставлено как женское (естaba):

Брутфорсные замены гендера могут пренебречь необходимым согласованием гендера. В этом примере слово 'enojada' должно быть 'enojado', чтобы согласовываться с мужским 'El secretario'.

Брутфорсные замены гендера могут пренебречь необходимым согласованием гендера. В этом примере слово ‘enojada’ должно быть ‘enojado’, чтобы согласовываться с мужским ‘El secretario’.

Система перевода также должна справляться с причудами отдельных языков в отношении гендера. Как указывает статья, местоимение я является гендерным в хинди, что предоставляет необычную подсказку о гендере.

Проблемы гендера

В новой статье, озаглавленной Генерация альтернатив гендера в машинном переводе, исследователи Apple и USC предлагают полуобработанный метод для преобразования неоднозначных сущностей гендера в массив альтернативных сущностей уровня.

Система, которая была использована для информирования перевода из приложения Apple Translate в iOS18, строит схему языка как с помощью использования больших языковых моделей (LLM), так и с помощью тонкой настройки предварительно обученных открытых моделей машинного перевода.

Результаты переводов из этих систем были затем обучены в архитектуру, содержащую структуры гендера – группы фраз, содержащих различные формы гендерных существительных, представляющих одну и ту же сущность.

Статья гласит*:

‘Гендерные предубеждения, присутствующие в обучающих данных, известны как проникновение в системы обработки естественного языка (NLP), в результате чего происходит распространение и потенциальное усиление этих предубеждений. Такие предубеждения часто также являются коренной причиной ошибок.

‘Система машинного перевода (MT) может, например, перевести doctor на испанский термин médico (мужской) вместо médica (женский), учитывая входные данные “The doctor asked the nurse to help her in the procedure”.

‘Чтобы избежать неправильного назначения гендера, системы MT должны разъяснить гендер через контекст. Когда правильный гендер не может быть определен через контекст, предоставление нескольких альтернативных переводов, покрывающих все действительные варианты гендера, является разумным подходом.’

Подход, который исследователи разработали, эффективно преобразует перевод из одного токена в массив, контролируемый пользователем.

(Хотя статья не упоминает об этом, это открывает возможность, либо в Apple Translate, либо в подобных порталах, которые предлагают услуги перевода, для выбора пользователя, который может быть подан обратно в последующие итерации модели)

Модель, разработанная Apple и USC, была оценена на GATE и MT-GenEval тестовых наборах. GATE содержит исходные предложения с до 3 неоднозначных сущностей гендера, в то время как MT-GenEval содержит материал, где гендер не может быть выведен, что, по заявлению авторов, помогает понять, когда альтернативные варианты гендера не должны быть предложены пользователю.

В обоих случаях тестовые наборы должны были быть переаннотированы, чтобы соответствовать целям проекта.

Для обучения системы исследователи полагались на новый автоматический алгоритм увеличения данных, в отличие от вышеупомянутых тестовых наборов, которые были аннотированы людьми.

Вкладывающие наборы данных для кураторства Apple были Europarl; WikiTitles; и WikiMatrix. Корпус был разделен на G-Tag (с 12 000 предложениями), включающий предложения с головными словами для всех сущностей, вместе с аннотацией, неоднозначной по гендеру; и G-Trans (с 50 000 предложениями), содержащий неоднозначные сущности гендера и выравнивания гендера.

Авторы утверждают:

‘Насколько нам известно, это первый крупномасштабный корпус, содержащий неоднозначности гендера и то, как они влияют на гендерные формы в переводе.’

Наборы данных и разнообразные данные для проекта были опубликованы на GitHub. Данные включают пять языковых пар, противопоставляющих английский язык русскому, немецкому, французскому, португальскому и испанскому.

Авторы использовали предыдущий подход из 2019 года, чтобы наделить модель возможностью выводить выравнивания гендера, обучая с кросс-энтропийной функцией потерь и дополнительной функцией потерь выравнивания.

Для рутины увеличения данных авторы отказались от традиционных правил-ориентированных методов в пользу данных-ориентированного подхода, тонко настраивая предварительно обученную языковую модель BERT на наборе данных G-Tag.

Двойной взгляд

Для случаев, когда обнаруживаются неоднозначные сущности гендера, Apple и USC исследовали два метода – тонкую настройку предварительно обученных языковых моделей и использование LLM.

В отношении первого метода статья гласит:

‘Мы тонко настраиваем предварительно обученную модель MT M на битехе, извлеченной из набора данных G-Trans. Исходные предложения этого битеха содержат неоднозначные сущности, помеченные как мужские или женские с помощью тегов <M>/<F>, и целевой перевод имеет правильные гендерные склонения, учитывая теги гендера.’

Иллюстрация схемы для извлечения битеха из набора данных G-Trans.

Иллюстрация схемы для извлечения битеха из набора данных G-Trans.

На изображении выше мы видим тонко настроенный текст в нижней средней колонке, и желаемый вывод в правой колонке, с лежащей в основе рациональностью, проиллюстрированной выше.

Для этого подхода авторы использовали метод пересчета решетки из более ранней работы 2020 года. Чтобы обеспечить, что только целевая область (гендер) была решена, был использован ограниченный поиск луча в качестве фильтра.

Для подхода LLM авторы разработали стратегию, которая использует LLM в качестве редактора, переписывая предоставленные переводы для предоставления назначений гендера.

LLM запрашивается с помощью примера в контексте для назначения гендера.

LLM запрашивается с помощью примера в контексте для назначения гендера.

С результатами из обоих подходов, объединенных, модель была затем тонко настроена для классификации исходных токенов как выровненных (обозначенных ‘1’ в схеме ниже) или невыровненных (обозначенных ‘2’ ниже).

Схема для объединения результатов из обоих подходов.

Схема для объединения результатов из обоих подходов.

Данные и тесты

Детектор неоднозначной сущности, использованный для проекта, был разработан путем тонкой настройки модели xlm-roberta-large Facebook AI, используя трансформеры. Для этого был использован объединенный набор данных G-Tag во всех пяти языковых парах.

В первом из вышеупомянутых двух подходов модель M2M 1.2B была обучена на Fairseq, совместно с битех-данными из набора данных G-Trans, с гендерными склонениями, предоставленными Wiktionary.

Для подхода LLM авторы использовали GPT-3.5-turbo. Для выравнивания структур гендера была снова использована xlm-roberta-large, на этот раз с выравниваниями гендера, извлеченными из G-Trans.

Метрики для оценки альтернатив, структуры (с точностью и полнотой), и точностью выравнивания.

Хотя первые два из них самоочевидны, точность выравнивания измеряет процент выводимых структур гендера, соответствующих известной правильной исходной идентичности, и использует метод δ-BLEU, в соответствии с методологией для MT-GenEval.

Ниже приведены результаты для конвейера увеличения данных:

Результаты из тестов увеличения данных. Стрелки вверх указывают 'чем выше, тем лучше', вниз 'чем ниже, тем лучше'.

Результаты из тестов увеличения данных. Стрелки вверх указывают ‘чем выше, тем лучше’, вниз ‘чем ниже, тем лучше’.

Здесь авторы комментируют*:

‘И M2M, и GPT выполняют в основном на одном уровне, за исключением английско-русского, где GPT достигает намного более низкого воспоминания альтернатив (58,7 по сравнению с 89,3). Качество сгенерированных структур гендера лучше для GPT на английско-немецком и английско-португальском, и лучше для M2M на английско-испанском и английско-русском, как можно увидеть из метрик структуры.

‘Обратите внимание, что у нас нет никаких данных G-Trans для английско-итальянского, поэтому результаты модели M2M и точность выравнивания на английско-итальянском являются чисто за счет нулевой выстрела моделей M2M и XLM.’

Исследователи также сравнили производительность системы увеличения данных, через M2M, с методом переписывания предложения уровня GATE, на собственных условиях GATE.

Конвейер увеличения данных Apple/USC против метода переписывания предложения уровня GATE.

Конвейер увеличения данных Apple/USC против метода переписывания предложения уровня GATE.

Здесь статья гласит:

‘Мы видим значительные улучшения в воспоминании при стоимости относительно небольшого ухудшения точности (за исключением английско-итальянского). Наша система может превзойти GATE на их предложенной метрике F.5 на всех 3 языковых парах.’

Наконец, авторы обучили разнообразные ‘ванилльные’ многоязычные модели в ванилльный битех. Вкладывающие наборы данных были WikiMatrix, WikiTitles, Multi-UN, NewsCommentary, и Tilde.

Две дополнительные ‘ванилльные’ модели были обучены, одна включала набор данных G-Trans с префиксным тегом <гендер>, который был использован в качестве контролируемого базового уровня; и третья, включала структуру гендера и выравнивания (на меньшей локальной модели, поскольку использование сервисов GPT было бы очень дорогим для этой цели).

Модели были протестированы против набора данных FloRes 2022 года.

Модели машинного перевода от конца до конца, протестированные (P = точность, R = полнота).

Модели машинного перевода от конца до конца, протестированные (P = точность, R = полнота).

Статья суммирует эти результаты:

‘Ванилльная модель не может генерировать альтернативы и показывает огромную предвзятость к генерированию мужских форм (δ-BLEU варьируется от 5,3 до 12,5 баллов).

‘Эта предвзятость значительно снижается контролируемым базовым уровнем. Модель, обученная на увеличенных данных, еще больше снижает предвзятость и достигает лучшей производительности в терминах метрик альтернатив, точности выравнивания и δ-BLEU.

‘Это показывает эффективность конвейера увеличения данных. Увеличенные данные также позволяют нам обучить конкурентоспособную систему для английско-итальянского, который не имеет контролируемых данных.’

Авторы заключают, отметив, что успех модели должен быть рассмотрен в более широком контексте борьбы NLP за рационализацию назначения гендера в методе перевода; и они отмечают, что это остается открытой проблемой.

Хотя исследователи считают, что результаты, полученные, не полностью достигают цели генерации переводов, нейтральных по гендеру, и/или разъяснения гендера, они считают работу ‘мощным инструментом’ для будущих исследований в одной из самых сложных областей машинного перевода.

 

* Мое преобразование внутренних цитат авторов в гиперссылки

Опубликовано впервые во вторник, 8 октября 2024 года

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.