Sztuczna inteligencja
Rozwiązanie Apple’a dla tłumaczeń języków płciowych

Apple opublikowało właśnie pracę, we współpracy z USC, która opisuje metody uczenia maszynowego wykorzystywane do zapewnienia użytkownikom systemu operacyjnego iOS18 większego wyboru w kwestii płci podczas tłumaczeń.

W iOS18 użytkownicy mogą wybrać alternatywne sugestie płci dla tłumaczonego słowa w rodzimym aplikacji Translate. Źródło: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Chociaż problemy poruszone w pracy (które Apple ogłosiło tutaj) dotykają w pewnym stopniu bieżących debat na temat definicji płci, koncentrują się one na o wiele starszym problemie: fakcie, że 84 z 229 znanych języków na świecie wykorzystują system płci oparty na płci.

Czerwone kropki wskazują języki, które wykorzystują system płci oparty na płci. Źródło: https://wals.info/feature/31A#map
Zaskakująco, język angielski należy do kategorii płci, ponieważ przypisuje męskie lub żeńskie czasownikisingularne.
W przeciwieństwie do tego, wszystkie języki romańskie (w tym ponad pół miliarda użytkowników hiszpańskich) – oraz wiele innych popularnych języków, takich jak rosyjski – wymaga zgodności płci w sposób, który zmusza systemy tłumaczeń do rozwiązania problemu przypisania płci w języku.
Nowy artykuł ilustruje to, obserwując wszystkie możliwe hiszpańskie tłumaczenia zdania Sekretarz był zły na szefa:

Z nowego artykułu, przykład potencjalnych przypisań płci w zdaniu ‘Sekretarz był zły na szefa’, tłumacząc z angielskiego na hiszpański. Źródło: https://arxiv.org/pdf/2407.20438
Naiwne tłumaczenie jest dalece niewystarczające dla dłuższych tekstów, które mogą ustalić płeć na początku (‘On’, ‘Ona’ itd.) i nie odnoszą się do płci ponownie. Niemniej jednak, tłumaczenie musi pamiętać o przypisanej płci uczestnika przez cały tekst.
To może być trudne dla podejść opartych na tokenach, które zajmują się tłumaczeniami w dyskretnych partiach i ryzykują utratę kontekstu płci w trakcie trwania treści.
Co gorsza, systemy, które zapewniają alternatywne tłumaczenia dla tendencyjnych przypisań płci, nie mogą robić tego w sposób nieograniczony, tj. poprzez prostą substitucję rzeczownika płci, ale muszą zapewnić, że wszystkie inne części języka zgadzają się z zmienionym rzeczownikiem płci.
W tym przykładzie z artykułu Apple/USC widzimy, że chociaż Sekretarz został przypisany do męskiej płci, czasownik był pozostał w formie żeńskiej (była):

Brutalne substitucje płci mogą zaniedbać konieczną zgodność płci. W tym przykładzie słowo ‘zła’ powinno być ‘zły’, aby zgadzać się z męskim ‘Sekretarzem’.
System tłumaczeń musi również radzić sobie z ekscentrycznościami poszczególnych języków w odniesieniu do płci. Jak zauważa artykuł, zaimek ja jest płciowy w języku hindi, co stanowi niezwykłą wskazówkę do określenia płci.
Problemy z płcią
W nowym artykule, zatytułowanym Generowanie alternatyw płci w tłumaczeniach maszynowych, badacze z Apple i USC proponują półnadzorowaną metodę konwersji niepewnych jednostek płci na tablicę alternatyw na poziomie jednostki.
System, który został wykorzystany do poinformowania tłumaczenia z aplikacji Apple Translate w iOS18, konstruuje schemat języka przy użyciu dużych modeli językowych (LLM) oraz dostosowywania wstępnie wytrenowanych modeli tłumaczeń maszynowych o otwartym źródle.
Wyniki z tłumaczeń tych systemów zostały następnie przeszkolone w architekturze zawierającej struktury płci – grupy fraz, które zawierają różne formy płciowych rzeczowników reprezentujących tę samą jednostkę.
Artykuł stwierdza*:
‘Są znane przypadki, w których przekłady z języka angielskiego na hiszpański są tendencyjne, np. słowo ‘lekarz’ jest częściej tłumaczone jako ‘médico’ (męska forma) niż ‘médica’ (żeńska forma). ‘
‘Aby uniknąć niewłaściwych przypisań płci, systemy tłumaczeń muszą rozróżniać płeć za pomocą kontekstu. Kiedy poprawna płeć nie może być określona za pomocą kontekstu, zapewnienie wielu alternatywnych tłumaczeń, które obejmują wszystkie ważne wybory płci, jest rozsądnym podejściem.’
Podejście, które badacze przyjęli, skutecznie zmienia tłumaczenie z jednego tokenu na tablicę kontrolowaną przez użytkownika.
(Chociaż artykuł nie wspomina o tym, otwiera to możliwość, że w Apple Translate lub w podobnych portalach, które oferują usługi tłumaczeń, wybory użytkownika mogą być wprowadzane do późniejszych iteracji modelu)
Model opracowany przez Apple i USC został oceniony na GATE i MT-GenEval zestawach testowych. GATE zawiera zdania źródłowe z maksymalnie 3 niepewnymi jednostkami płci, podczas gdy MT-GenEval zawiera materiały, w których płeć nie może być wnioskowana, co, jak stwierdzają autorzy, pomaga w zrozumieniu, kiedy alternatywne opcje płci nie powinny być oferowane użytkownikowi.
W obu przypadkach zestawy testowe musiały zostać ponownie zaadnotowane, aby dopasować się do celów projektu.
Aby przeszkolić system, badacze polegali na nowym algorytmie rozszerzania danych, w przeciwieństwie do wymienionych zestawów testowych, które były adnotowane przez ludzi.
Wkładające zestawy danych dla Apple były Europarl; WikiTitles; i WikiMatrix. Korpus został podzielony na G-Tag (z 12 000 zdaniach), obejmujący zdania z słowami głównymi dla wszystkich jednostek, wraz z adnotacją niepewności płci; i G-Trans (z 50 000 zdaniach), zawierający niepewne jednostki płci i wyświetlanie płci.
Autorzy twierdzą:
‘Do naszej wiedzy, jest to pierwszy duży korpus, który zawiera niepewności płci i ich wpływ na formy płciowe w tłumaczeniu.’
Zestawy danych i różnorodne dane do projektu zostały udostępnione na GitHub. Dane obejmują pięć par językowych, zestawiających angielski z rosyjskim, niemieckim, francuskim, portugalskim i hiszpańskim.
Badacze wykorzystali wcześniejsze podejście z 2019 roku, aby wyposażyć model w możliwość wyjścia z wyświetleniami płci, trenując z stratą entropii krzyżowej i dodatkową stratą wyrównania.
Dla rutyny rozszerzania danych autorzy odrzucili tradycyjne metody oparte na regułach na rzecz podejścia ukierunkowanego na dane, dostosowując pre-trenowany model językowy BERT na zestawie danych G-Tag.
Powtórne spojrzenie
Dla przypadków, w których wykrywane są niepewne jednostki płci, Apple i USC zbadali dwie metody – dostosowanie wstępnie wytrenowanych modeli językowych i użycie LLM.
W odniesieniu do pierwszej metody, artykuł stwierdza:
‘Dostosowujemy wstępnie wytrenowany model tłumaczenia maszynowego M na bi-tekst wyodrębniony z zestawu danych G-Trans. Zdania źródłowe tego bi-tekstu zawierają niepewne jednostki oznaczone jako męskie lub żeńskie przy użyciu <M>/<F> tagów, a tłumaczenie docelowe ma poprawne infleksje płci w zależności od tagów płci.’

Ilustracja schematu wyodrębniania bi-tekstu z zestawu danych G-Trans.
Na powyższym obrazie widzimy dostosowany tekst w środkowej kolumnie, a pożądany wynik w prawej kolumnie, z podstawową racjonalizacją ilustrowaną powyżej.
Dla tego podejścia autorzy wykorzystali metodę ponownego oceniania siatki z wcześniejszej pracy z 2020 roku. Aby upewnić się, że tylko docelowy obszar (płeć) był adresowany, wykorzystano wyszukiwanie wiązane jako filtr.
Dla podejścia LLM autorzy opracowali strategię, która wykorzystuje LLM jako edytor, poprzez ponowne napisanie dostarczonych tłumaczeń w celu zapewnienia przypisań płci.

LLM jest uruchamiany przy użyciu przykładu w kontekście w celu przypisania płci.
Wyniki z obu podejść zostały połączone, a model został następnie dostosowany do klasyfikacji tokenów źródłowych jako wyrównanych (oznaczonych jako ‘1’ w poniższym schemacie) lub niewyrównanych (oznaczonych jako ‘2’ poniżej).

Schemat połączenia wyników z obu podejść.
Dane i testy
Wykrywacz niepewnych jednostek wykorzystany w projekcie został opracowany przez dostosowanie modelu xlm-roberta-large firmy Facebook AI, przy użyciu transformerów. Dla tego celu wykorzystano połączony zestaw G-Tag we wszystkich pięciu parach językowych.
W pierwszym z wymienionych podejść model M2M 1.2B został wytrenowany na Fairseq, wspólnie z danymi bi-tekstowymi z zestawu danych G-Trans, z infleksjami płci zapewnionymi przez Wiktionary.
Dla podejścia LLM autorzy wykorzystali GPT-3.5-turbo. Dla wyrównania struktur płci wykorzystano ponownie model xlm-roberta-large, tym razem z wyrównaniami płci wyodrębnionymi z G-Trans.
Miary dla oceny alternatyw, struktury (z dokładnością i przywołaniem), oraz dokładnością wyrównania.
Chociaż pierwsze dwie z nich są samoopisujące się, dokładność wyrównania mierzy procent wynikowych struktur płci, które zgadzają się z znaną poprawną tożsamością źródłową, i wykorzystuje metodę δ-BLEU, zgodnie z metodologią MT-GenEval.
Poniżej znajdują się wyniki potoku rozszerzania danych:

Wyniki testów potoku rozszerzania danych. Strzałki w górę wskazują ‘wyższe-lepsze’, strzałki w dół ‘niższe-gorsze’.
Tutaj autorzy komentują*:
‘Oba modele M2M i GPT wykonują się głównie na równi, z wyjątkiem angielsko-rosyjskiego, gdzie GPT osiąga znacznie niższą współmierność alternatyw (58,7 w porównaniu z 89,3). Jakość wygenerowanych struktur płci jest lepsza dla GPT w angielsko-niemieckim i angielsko-portugalskim, a lepsza dla M2M w angielsko-hiszpańskim i angielsko-rosyjskim, jak można zobaczyć w metrykach strukturalnych. ‘
‘Należy zauważyć, że nie mamy żadnych danych G-Trans dla angielsko-włoskiego, więc wyniki modelu M2M i dokładność wyrównania w angielsko-włoskim są wyłącznie wynikiem zero-shot generalizacji modeli M2M i XLM.’
Badacze porównali również wyniki systemu rozszerzania danych, za pomocą M2M, z metodą GATE na poziomie zdania, na warunkach określonych przez GATE.

Potok rozszerzania danych Apple/USC w porównaniu z metodą GATE na poziomie zdania.
Tutaj artykuł stwierdza:
‘Widzimy znaczne poprawy w przywołaniu przy koszcie względnie niewielkiego pogorszenia dokładności (z wyjątkiem angielsko-włoskiego). Nasz system jest w stanie przewyższyć GATE w ich proponowanej metryce F.5 we wszystkich 3 parach językowych.’
W końcu autorzy wytrenowali różne modele wielojęzyczne vanilla w vanilla bi-tekst. Wkładające zestawy danych były WikiMatrix, WikiTitles, Multi-UN, NewsCommentary, i Tilde.
Dwa dodatkowe modele vanilla zostały wytrenowane, jeden zawierający zestaw danych G-Trans z prefiksem <gender>, który został wykorzystany jako nadzorowany punkt odniesienia; i trzeci, zawierający struktury płci i wyrównania (na mniejszym modelu lokalnym, ponieważ korzystanie z usług API GPT byłoby bardzo kosztowne dla tego celu).
Modele zostały przetestowane na zestawie danych FloRes z 2022 roku.

Modele tłumaczeń maszynowych testowane (P = dokładność, R = przywołanie).
Artykuł podsumowuje te wyniki:
‘Model vanilla nie może generować alternatyw i wykazuje duży brak równowagi przy generowaniu form męskich (δ-BLEU wahający się od 5,3 do 12,5 punktów).’
‘Ta nierównowaga jest znacznie zmniejszona przez punkt odniesienia nadzorowanego. Model wytrenowany na danych rozszerzonych dalej zmniejsza nierównowagę i osiąga najlepszą wydajność w zakresie metryk alternatyw, dokładności wyrównania i δ-BLEU. ‘
‘To pokazuje skuteczność potoku rozszerzania danych. Dane rozszerzone również pozwalają nam trenować konkurencyjny system dla angielsko-włoskiego, który nie ma danych nadzorowanych.’
Autorzy kończą, zauważając, że sukces modelu musi być rozpatrywany w szerszym kontekście walki NLP z racjonalizacją przypisania płci w metodzie tłumaczenia; i zauważają, że to pozostaje otwartym problemem.
Chociaż badacze uważają, że wyniki uzyskane nie osiągają w pełni celu generowania tłumaczeń na poziomie jednostki lub rozróżniania płci, uważają pracę za ‘potężne narzędzie’ dla przyszłych eksploracji jednej z najbardziej wyzwaniowych dziedzin tłumaczeń maszynowych.
* Moja konwersja cytatów wewnętrznych autorów na linki
Pierwotnie opublikowane we wtorek, 8 października 2024












