Liderzy opinii

Wpływ transformatora: Czy tłumaczenie maszynowe zostało rozwiązane?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google niedawno ogłosił wydanie 110 nowych języków na Google Translate w ramach ich inicjatywy 1000 języków uruchomionej w 2022 roku. W 2022 roku, na początku dodali 24 języki. Z ostatnimi 110, jest to teraz 243 języki. Ten szybki rozwój był możliwy dzięki Zero-Shot Machine Translation, technologii, w której modele uczenia maszynowego uczą się tłumaczyć na inny język bez wcześniejszych przykładów. Ale w przyszłości zobaczymy razem, czy ten postęp może być ostatecznym rozwiązaniem wyzwania tłumaczenia maszynowego, a tymczasem możemy zbadać sposoby, w jakie to może się stać. Ale najpierw jego historia.

Jak to było wcześniej?

Statystyczne tłumaczenie maszynowe (SMT)

To była oryginalna metoda, którą używał Google Translate. Opierała się na modelach statystycznych. Analizowały one duże równoległe korpusy, zbiory wyrównanych tłumaczeń zdań, aby określić najbardziej prawdopodobne tłumaczenia. Najpierw system tłumaczył tekst na język angielski jako pośredni krok przed przekonwertowaniem go na język docelowy, a także potrzebował odniesienia fraz do obszernych zbiorów danych z transkryptów Organizacji Narodów Zjednoczonych i Parlamentu Europejskiego. Różniło się to od tradycyjnych podejść, które wymagały skompilowania wyczerpujących reguł gramatycznych. A jego statystyczne podejście pozwoliło mu adaptować się i uczyć z danych bez polegania na statycznych ramach językowych, które mogły szybko stać się całkowicie niepotrzebne.

Ale istnieją również pewne wady tego podejścia. Po pierwsze, Google Translate używał tłumaczenia fraz, w którym system rozbił zdania na frazy i tłumaczył je indywidualnie. Była to poprawa w porównaniu z tłumaczeniem słowo po słowie, ale nadal miała ograniczenia, takie jak niezręczne sformułowania i błędy kontekstowe. Po prostu nie zupełnie rozumiał nuansów, tak jak my. Ponadto, SMT w dużej mierze opiera się na posiadaniu równoległych korpusów, a każdy stosunkowo rzadki język byłby trudny do przetłumaczenia, ponieważ nie ma wystarczających danych równoległych.

Neuralne tłumaczenie maszynowe (NMT)

W 2016 roku Google przeszedł na Neuralne Tłumaczenie Maszynowe. Używa ono głębokich modeli uczenia, aby tłumaczyć całe zdania jako całość i jednocześnie, dając bardziej płynne i dokładne tłumaczenia. NMT działa podobnie do posiadania zaawansowanego wielojęzycznego asystenta w komputerze. Używając architektury sekwencja-do-sekwencji (seq2seq), NMT przetwarza zdanie w jednym języku, aby zrozumieć jego znaczenie. Następnie – generuje odpowiednie zdanie w innym języku. Ta metoda używa ogromnych zbiorów danych do nauki, w przeciwieństwie do Statystycznego Tłumaczenia Maszynowego, które opiera się na modelach statystycznych analizujących duże korpusy równoległe, aby określić najbardziej prawdopodobne tłumaczenia. W przeciwieństwie do SMT, który koncentrował się na tłumaczeniu fraz i wymagał dużej ręcznej pracy, aby rozwijać i utrzymywać reguły językowe i słowniki, NMT ma możliwość przetwarzania całych sekwencji słów, co pozwala mu lepiej uchwycić nuansowany kontekst języka. Więc poprawił jakość tłumaczenia w różnych parach językowych, często osiągając poziomy płynności i dokładności porównywalne z tłumaczami ludzkimi.

W rzeczywistości tradycyjne modele NMT używały Recurrent Neural Networks – RNN – jako podstawowej architektury, ponieważ są one zaprojektowane do przetwarzania sekwencyjnych danych, utrzymując ukryty stan, który ewoluuje wraz z każdym nowym wejściem (słowem lub tokenem). Ten ukryty stan służy jako rodzaj pamięci, która uchwycia kontekst poprzednich wejść, pozwalając modelowi nauczyć się zależności w czasie. Ale RNN-y były obciążone obliczeniowo i trudne do skutecznego równoleglenia, co ograniczało ich skalowalność.

Wprowadzenie transformatorów

W 2017 roku Google Research opublikował artykuł zatytułowany “Attention is All You Need,” wprowadzając transformatory na świat i oznaczając decydujący zwrot od RNN w architekturze sieci neuronowej.

Transformatory opierają się wyłącznie na mechanizmie uwagi, – samouwadze, który pozwala modelom tłumaczenia maszynowego selektywnie koncentrować się na najbardziej krytycznych częściach sekwencji wejściowych. W przeciwieństwie do RNN, które przetwarzają słowa w sekwencji w zdaniach, samouwaga ocenia każdy token w całym tekście, określając, które z nich są kluczowe dla zrozumienia jego kontekstu. To jednoczesne obliczanie wszystkich słów pozwala transformatorom skutecznie uchwycić zarówno krótko-, jak i długozasięgowe zależności bez polegania na połączeniach rekurencyjnych lub filtrach konwolucyjnych.

Więc eliminując rekurencję, transformatory oferują kilka kluczowych korzyści:

Możliwość równoległego przetwarzania: Mechanizmy uwagi mogą obliczać równolegle w różnych segmentach sekwencji, co przyspiesza trening na nowoczesnym sprzęcie, takim jak GPU.
Wydajność treningu: Wymagają one również znacznie mniej czasu treningu w porównaniu z tradycyjnymi modelami opartymi na RNN lub CNN, dostarczając lepszą wydajność w zadaniach takich jak tłumaczenie maszynowe.

Zero-Shot Machine Translation i PaLM 2

W 2022 roku Google wydał obsługę 24 nowych języków za pomocą Zero-Shot Machine Translation, co stanowiło znaczący kamień milowy w technologii tłumaczenia maszynowego. Ogłosili również inicjatywę 1,000 Languages Initiative, mającą na celu wsparcie 1,000 najczęściej używanych języków na świecie. Teraz wypuścili 110 więcej języków. Zero-shot machine translation umożliwia tłumaczenie bez danych równoległych między językiem źródłowym a docelowym, eliminując potrzebę tworzenia danych treningowych dla każdej pary języków — proces wcześniej kosztowny i czasochłonny, a dla niektórych par języków również niemożliwy.

Ten postęp był możliwy dzięki architekturze i mechanizmom samouwagi transformatorów. Możliwość modelu transformatora do nauki relacji kontekstowych między językami, w połączeniu z jego skalowalnością do obsługi wielu języków jednocześnie, umożliwiła rozwój bardziej wydajnych i skutecznych systemów tłumaczenia wielojęzycznego. Jednak modele zero-shot zwykle wykazują niższą jakość niż te szkolone na danych równoległych.

Następnie, opierając się na postępie transformatorów, Google wprowadził PaLM 2 w 2023 roku, co umożliwiło wydanie 110 nowych języków w 2024 roku. PaLM 2 znacznie poprawił możliwości Translate do nauki języków pokrewnych, takich jak Awadhi i Marwadi (pokrewne z hindi) oraz kreolskich, takich jak Seychellois i Mauritian Creole. Ulepszenia w PaLM 2, takie jak optymalne skalowanie obliczeniowe, ulepszone zbiory danych i udoskonalony projekt — umożliwiły bardziej wydajną naukę języka i wspierały ciągłe starania Google, aby poprawić i powiększyć wsparcie językowe oraz dostosować się do różnorodnych niuansów językowych.

Czy możemy twierdzić, że wyzwanie tłumaczenia maszynowego zostało w pełni rozwiązane z transformatorami?

Ewolucja, o której mówimy, zajęła 18 lat od przyjęcia przez Google SMT do ostatnich 110 dodatkowych języków za pomocą Zero-Shot Machine Translation. Reprezentuje to ogromny skok, który może potencjalnie zmniejszyć potrzebę obszernego zbierania korpusów równoległych — historycznie i bardzo pracochłonnego zadania, które branża realizowała przez ponad dwie dekady. Ale twierdzenie, że tłumaczenie maszynowe jest całkowicie rozwiązane, byłoby przedwczesne, biorąc pod uwagę zarówno techniczne, jak i etyczne względy.

Bieżące modele nadal mają trudności z kontekstem i spójnością i popełniają subtelne błędy, które mogą zmienić znaczenie, jakie chcieliśmy nadać tekstu. Te problemy są bardzo widoczne w dłuższych, bardziej złożonych zdaniach, gdzie utrzymanie logicznego przepływu i zrozumienie niuansów jest potrzebne do uzyskania wyników. Ponadto kulturowe niuanse i wyrażenia idiomatyczne zbyt często giną lub tracą znaczenie, powodując tłumaczenia, które mogą być gramatycznie poprawne, ale nie mają zamierzonego wpływu lub brzmią nienaturalnie.

Dane do wstępnego treningu: PaLM 2 i podobne modele są wstępnie trenowane na różnorodnym wielojęzycznym korpusie tekstu, przewyższając swojego poprzednika PaLM. To ulepszenie pozwala PaLM 2 excelować w zadaniach wielojęzycznych, podkreślając nadal ważność tradycyjnych zbiorów danych dla poprawy jakości tłumaczenia.

Domena specyficzna lub rzadki język: W specjalistycznych dziedzinach, takich jak prawo, medycyna lub technika, korpusy równoległe zapewniają, że modele spotykają się z określoną terminologią i niuansami językowymi. Zaawansowane modele mogą mieć trudności z językiem specyficznym dla danej dziedziny lub ewoluującymi trendami językowymi, co stanowi wyzwanie dla Zero-Shot Machine Translation. Również języki o niskich zasobach są nadal słabo tłumaczone, ponieważ nie mają danych, których potrzebują do szkolenia dokładnych modeli.

Benchmarking: Korpusy równoległe pozostają niezbędne do oceny i benchmarkingu wydajności modeli tłumaczenia, szczególnie wyzwania dla języków, których brakuje wystarczających danych korpusu równoległego. Zautomatyzowane metryki, takie jak BLEU, BLERT i METEOR, mają ograniczenia w ocenie nuansów jakości tłumaczenia poza gramatyką. Ale ludzie są również ograniczeni przez swoje uprzedzenia. Ponadto nie ma zbyt wielu wykwalifikowanych oceniających, a znalezienie idealnego oceniającego dwujęzycznego dla każdej pary języków, aby złapać subtelne błędy, jest trudne.

Natężenie zasobów: Obciążone zasobami właściwości treningu i wdrażania LLM pozostaje barierą, ograniczając dostępność dla niektórych aplikacji lub organizacji.

Zachowanie kulturowe. Wymiar etyczny jest głęboki. Jak opisuje to Isaac Caswell, naukowiec z Google Translate: “Można to uznać za poliglotę, który zna wiele języków. Ale potem dodatkowo widzi tekst w 1,000 więcej języków, które nie są przetłumaczone. Można wyobrazić sobie, że jesteś wielkim poliglotą, a potem po prostu zaczynasz czytać powieści w innym języku, możesz zacząć składać, co mogłoby to znaczyć na podstawie Twojej wiedzy o języku w ogóle”. Jednak ważne jest, aby rozważyć długoterminowy wpływ na mniejszościowe języki, które nie mają korpusów równoległych, potencjalnie wpływając na zachowanie kulturowe, gdy zależność przechodzi od języków samych.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, jest wybitnym naukowcem danych z ponad dekadą doświadczenia, obejmującym zarówno analizy produktów, jak i analizy dla najnowocześniejszych technologii. Kierowała tworzeniem i analizą Yasminy, pierwszego w pełni funkcjonalnego lokalnego asystenta głosowego opartego na sztucznej inteligencji dla Arabii Saudyjskiej, zajmując się złożoną lokalizacją danych i ich oznaczaniem dla języka arabskiego i dialektów saudyjskich. Obecnie Irina kieruje analizą jakości w Yandex, napędzając postępy w technologiach sztucznej inteligencji.