Spojte se s námi

Myšlenkové vůdce

Dopad transformátoru: Byl vyřešen strojový překlad?

mm

Google nedávno oznámil vydání 110 nových jazyků v Překladači Google v rámci své iniciativy 1000 jazyků zahájené v roce 2022. V roce 2022, na začátku přidáno 24 jazyků. S nejnovějšími 110 dalšími je nyní 243 jazyků. Toto rychlé rozšíření bylo možné díky Strojový překlad Zero-Shot, technologie, kde se modely strojového učení učí překládat do jiného jazyka bez předchozích příkladů. V budoucnu však společně uvidíme, zda tento pokrok může být konečným řešením problému strojového překladu, a mezitím můžeme prozkoumat způsoby, jak k tomu může dojít. Ale nejprve jeho příběh.

Jak to bylo předtím?

Statistický strojový překlad (SMT) 

Toto byla původní metoda, kterou používal Překladač Google. Opíralo se o statistické modely. Analyzovali velké paralelní korpusy, sbírky zarovnaných překladů vět, aby určili nejpravděpodobnější překlady. Nejprve systém přeložil text do angličtiny jako prostřední krok před jeho převedením do cílového jazyka a potřeboval křížit fráze s rozsáhlými datovými soubory z přepisů Organizace spojených národů a Evropského parlamentu. Je to odlišné od tradičních přístupů, které vyžadovaly sestavení vyčerpávajících gramatických pravidel. A jeho statistický přístup mu umožnil adaptovat se a učit se z dat, aniž by se spoléhal na statické lingvistické rámce, které by se rychle mohly stát zcela nepotřebnými.

Tento přístup má ale i určité nevýhody. První Překladač Google používal frázový překlad, kdy systém rozděloval věty na fráze a překládal je jednotlivě. Toto bylo vylepšení oproti překladu slovo od slova, ale stále mělo omezení, jako je nepohodlné frázování a kontextové chyby. Prostě to úplně nepochopilo ty nuance jako my. SMT také silně spoléhá na paralelní korpusy a jakýkoli relativně vzácný jazyk by bylo těžké přeložit, protože nemá dostatek paralelních dat.

Neural Machine Translation (NMT)

V roce 2016 Google přešel na Neural Machine Translation. Používá modely hlubokého učení k překladu celých vět jako celku a najednou, čímž poskytuje plynulejší a přesnější překlady. NMT funguje podobně, jako když máte v počítači sofistikovaného vícejazyčného asistenta. Pomocí architektury sekvence-k-posloupnosti (seq2seq) NMT zpracovává větu v jednom jazyce, aby pochopil její význam. Potom – vygeneruje odpovídající větu v jiném jazyce. Tato metoda využívá k učení obrovské datové sady, na rozdíl od Statistical Machine Translation, která se spoléhá na statistické modely analyzující velké paralelní korpusy pro určení nejpravděpodobnějších překladů. Na rozdíl od SMT, které se zaměřovalo na překlady založené na frázích a vyžadovalo mnoho manuálního úsilí k vývoji a údržbě jazykových pravidel a slovníků, schopnost NMT zpracovávat celé sekvence slov umožňuje efektivněji zachytit nuancovaný kontext jazyka. Zlepšila se tak kvalita překladu napříč různými jazykovými páry a často se dostala na úroveň plynulosti a přesnosti srovnatelnou s lidskými překladateli.

Ve skutečnosti tradiční modely NMT používaly jako základní architekturu rekurentní neuronové sítě – RNN, protože jsou navrženy tak, aby zpracovávaly sekvenční data udržováním skrytého stavu, který se vyvíjí, jak se zpracovává každý nový vstup (slovo nebo token). Tento skrytý stav slouží jako druh paměti, která zachycuje kontext předchozích vstupů a umožňuje modelu učit se závislosti v průběhu času. RNN však byly výpočetně drahé a bylo obtížné je efektivně paralelizovat, což omezovalo jejich škálovatelnost.

Představení transformátorů 

V roce 2017 zveřejnil Google Research dokument s názvem "Pozornost je vše, co potřebujete," zavedení transformátorů do světa a označení klíčového posunu od RNN v architektuře neuronových sítí.

Transformátory spoléhají pouze na mechanismus pozornosti, – sebepozornost, která umožňuje modelům neuronového strojového překladu selektivně se zaměřit na nejkritičtější části vstupních sekvencí. Na rozdíl od RNN, které zpracovávají slova v sekvenci ve větách, sebepozornost vyhodnocuje každý token v celém textu a určuje, které další jsou klíčové pro pochopení jeho kontextu. Tento simultánní výpočet všech slov umožňuje transformátorům efektivně zachytit závislosti na krátkém i dlouhém dosahu, aniž by se spoléhaly na opakující se připojení nebo konvoluční filtry.

Eliminací opakování tedy transformátory nabízejí několik klíčových výhod:

  • Paralelizace: Mechanismy pozornosti mohou počítat paralelně napříč různými segmenty sekvence, což urychluje trénink na moderním hardwaru, jako jsou GPU.
  • Účinnost školení: Ve srovnání s tradičními modely založenými na RNN nebo CNN také vyžadují výrazně méně času na školení a poskytují lepší výkon v úlohách, jako je strojový překlad.

Strojový překlad Zero-Shot a PaLM 2

V roce 2022 Google uvolnil podporu pro 24 nových jazyků pomocí Zero-Shot Machine Translation, což představuje významný milník v technologii strojového překladu. Ohlásili také iniciativu 1,000 1,000 jazyků, jejímž cílem je podpořit XNUMX XNUMX nejpoužívanějších jazyků světa. Nyní se rozběhly 110 dalších jazyků. Strojový překlad Zero-shot umožňuje překlad bez paralelních dat mezi zdrojovým a cílovým jazykem, čímž se eliminuje potřeba vytvářet trénovací data pro každý jazykový pár – proces, který byl dříve nákladný a časově náročný a pro některé párové jazyky také nemožný.

Tento pokrok se stal možným díky architektuře a mechanismům samopozornosti transformátorů. Theschopnosti modelu transformátoru naučit se kontextové vztahy mezi jazyky, což je kombinace s jeho škálovatelností pro práci s více jazyky současně, umožnilo vývoj efektivnějších a efektivnějších vícejazyčných překladatelských systémů. Modely zero-shot však obecně vykazují nižší kvalitu než modely natrénované na paralelních datech.

Poté, na základě pokroku transformátorů, Google představil DLAŇ 2 v roce 2023, což umožnilo vydání 110 nových jazyků v roce 2024. PaLM 2 výrazně zlepšil schopnost Překladače učit se blízce příbuzné jazyky, jako je awadhi a marwadi (příbuzné hindštině) a francouzské kreolské jazyky jako seychelská a mauricijská kreolština. Vylepšení v PaLM 2, jako je výpočetně optimální škálování, vylepšené datové sady a vylepšený design, umožnily efektivnější výuku jazyků a podpořily pokračující úsilí společnosti Google o lepší a větší jazykovou podporu a přizpůsobení různým jazykovým nuancím.

Můžeme tvrdit, že problém strojového překladu byl plně vyřešen pomocí transformátorů?

Vývoj, o kterém mluvíme, trval 18 let od přijetí SMT společností Google až po nedávných 110 dalších jazyků využívajících strojový překlad Zero-Shot. To představuje obrovský skok, který může potenciálně snížit potřebu rozsáhlé kolekce paralelních korpusů – historicky a velmi pracně náročný úkol, o který se průmysl usiloval více než dvě desetiletí. Ale tvrdit, že strojový překlad je kompletně řešen, by bylo předčasné, vezmeme-li v úvahu technické i etické úvahy.

Současné modely stále bojují s kontextem a soudržností a dělají jemné chyby, které mohou změnit význam, který jste zamýšleli pro text. Tyto problémy jsou velmi přítomné v delších, složitějších větách, kde je pro výsledky potřeba zachování logického toku a pochopení nuancí. Také kulturní nuance a idiomatické výrazy se příliš často ztrácejí nebo ztrácejí význam, což způsobuje překlady, které mohou být gramaticky správné, ale nemají zamýšlený dopad nebo znějí nepřirozeně.

Údaje pro předtrénink: PaLM 2 a podobné modely jsou předem trénovány na rozmanitém vícejazyčném textovém korpusu, který překonává svého předchůdce PaLM. Toto vylepšení vybavuje PaLM 2 k tomu, aby vynikal ve vícejazyčných úlohách, což podtrhuje pokračující význam tradičních datových sad pro zlepšení kvality překladu.

Jazyky specifické pro doménu nebo vzácné jazyky: Ve specializovaných oblastech, jako jsou právní, lékařské nebo technické obory, paralelní korpusy zajišťují, že se modely setkávají se specifickými terminologiemi a jazykovými nuancemi. Pokročilé modely se mohou potýkat s žargonem specifickým pro doménu nebo s vyvíjejícími se jazykovými trendy, což představuje výzvu pro strojový překlad Zero-Shot. Také jazyky s nízkými zdroji jsou stále špatně překládány, protože nemají data, která potřebují k trénování přesných modelů

Srovnávání: Paralelní korpusy zůstávají zásadní pro hodnocení a srovnávání výkonu překladových modelů, což je zvláště náročné pro jazyky, které nemají dostatek paralelních korpusových dat. Automatizované metriky jako BLEU, BLERT a METEOR mají kromě gramatiky omezení při posuzování nuancí v kvalitě překladu. Ale pak nám lidem brání naše předsudky. Také zde není příliš mnoho kvalifikovaných hodnotitelů a pro každou dvojici jazyků lze najít perfektního dvojjazyčného hodnotitele, který by zachytil jemné chyby.

Intenzita zdrojů: Povaha školení a zavádění LLM náročná na zdroje zůstává překážkou, která omezuje dostupnost pro některé aplikace nebo organizace.

Zachování kultury. Etický rozměr je hluboký. Isaac Caswell, vědecký pracovník výzkumu Google Translate, popisuje strojový překlad Zero-Shot: „Můžete si to představit jako polyglot, který zná spoustu jazyků. Ale pak navíc uvidí text v 1,000 dalších jazycích, který není přeložen. Dokážete si představit, že když jste nějaký velký polyglot, a pak prostě začnete číst romány v jiném jazyce, můžete si začít dávat dohromady, co by to mohlo znamenat na základě vašich znalostí jazyka obecně.“ Přesto je zásadní vzít v úvahu dlouhodobý dopad na menšinové jazyky postrádající paralelní korpusy, které mohou potenciálně ovlivnit uchování kultury, když se spoléhání odkloní od jazyků samotných.

 

Irina Barskaya, PhD, je uznávaná datová vědkyně s více než desetiletými zkušenostmi, která zahrnuje jak produktovou analýzu, tak analýzu špičkových technologií. Postavila se do čela vytvoření a analýzy pro Yasmina, první plně funkční lokalizovanou hlasovou asistentku založenou na umělé inteligenci pro Saúdskou Arábii, která zpracovává složitou lokalizaci dat a označování pro moderní standardní arabštinu a saúdské dialekty. V současné době Irina vede analytiku kvality ve společnosti Yandex, což vede k pokroku v technologiích AI.