Umělá inteligence
Vysoká uhlíková stopa německých auto-překladových modelů

Nová výzkum do uhlíkové stopy vytvořené překladovými modely strojového učení ukazuje, že němčina může být nejvíce uhlíkově náročným populárním jazykem pro školení, i když není zcela jasné, proč. Nová zpráva je určena k otevření dalších směrů výzkumu do více uhlíkově efektivních metod školení AI, v kontextu rostoucího povědomí o rozsahu, v jakém systémy strojového učení spotřebují elektřinu.
Předtisková verze článku je nazvána Omezte své uhlíkové emise: Benchmarking uhlíkových emisí v strojovém překladu a pochází od výzkumníků z Indického Manipalského technologického institutu.
Autoři testovali časy školení a vypočítali hodnoty uhlíkových emisí pro řadu možných modelů překladu mezi jazyky a zjistili ‘značný rozpor’ mezi časem potřebným pro překlad tří nejvíce uhlíkově náročných jazykových párů a třemi nejvíce uhlíkově efektivních modelů.

Průměrné uhlíkové emise uvolněné během 10 epoch školení. Vlevo, výsledky pomocí ConvSeq (viz níže), vpravo, Transformery. Zdroj: https://arxiv.org/pdf/2109.12584.pdf
Článek zjistil, že nejvíce ‘ekologické’ jazykové páry pro školení jsou angličtina > francouzština, francouzština > angličtina a, paradoxně, němčina > angličtina, zatímco němčina je obsažena ve všech nejvíce spotřebních párech: francouzština > němčina, angličtina > němčina a němčina > francouzština.
Složený úrok
Zjištění naznačují, že lexikální rozmanitost ‘je přímo úměrná času školení pro dosažení dostatečné úrovně výkonu’, a poznamenávají, že němčina má nejvyšší skóre lexikální rozmanitosti mezi třemi testovanými jazyky, odhadnuté podle jeho Type-Token Ratio (TTR) – měření velikosti slovní zásoby na základě délky textu.
Zvýšené nároky na zpracování němčiny v překladových modelech nejsou odráženy v zdrojových datech, která byla použita pro experiment. Ve skutečnosti má němčina fewer (299445) odvozených tokenů než angličtina (320108) a mnohem méně než francouzština (335917).

Výzva, z pohledu zpracování přirozeného jazyka (NLP), spočívá v rozložení složitých německých slov na jejich složky. Systémy NLP často musí tento proces provádět pro němčinu bez jakýchkoliv předchozích ‘rozdělení’ okolní gramatiky nebo kontextových podnětů, které lze nalézt v jazycích s nižšími skóre TTR, jako je angličtina. Tento proces se nazývá rozdělení složitých slov nebo dekompozice.
Němčina má některé z nejdelších jednotlivých slov na světě, i když v roce 2013 ztratila oficiální uznání svého 65znakového bývalého rekordmana, který je dostatečně dlouhý, aby vyžadoval svůj vlastní řádek v tomto článku:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
Slovo se týká zákona delegujícího monitoring etiket masa, ale přestalo existovat kvůli změně evropských předpisů téhož roku, a tím se uvolnilo místo pro jiné populární výrazy, jako je ‘vdova po kapitánovi dunajské parnické společnosti’ (49 znaků):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
Obecně vyžaduje německá syntaktická struktura odchod od předpokladů o pořadí slov, které jsou základem postupů NLP v mnoha západních jazycích, a to s populárním (berlínským) rámcem spaCY pro NLP, který přijal svůj vlastní rodilý jazyk v roce 2016.

Projektivní mapování v anglické a německé frázi demonstruje složitý vztah mezi lexikálními prvky v němčině. Zdroj: https://explosion.ai/blog/german-model
Data a testování
Pro zdrojová data použili výzkumníci Multi30k dataset, který obsahuje 30 000 vzorků napříč francouzštinou, němčinou a angličtinou.
První z dvou modelů použitých výzkumníky byl Facebook AI’s 2017 Convolutional Sequence to Sequence (ConvSeq), neuronová síť, která obsahuje konvoluční vrstvy, ale postrádá rekurentní jednotky, a místo toho používá filtry pro odvození funkcí z textu. To umožňuje, aby všechny operace probíhaly v kompaktním paralelním režimu.
Druhý přístup použitý výzkumníky byl Googlova vlivná Transformers architektura, také z roku 2017. Transformery používá lineární vrstvy, mechanismy pozornosti a normalizační rutiny. Přiznává se, že původně uvolněný model přišel pod kritiku pro uhlíkovou neefektivitu, s tvrzeními o následujících vylepšeních sporných.
Experimenty byly provedeny na Google Colab, uniformně na Tesla K80 GPU. Jazyky byly porovnány pomocí BLEU (Bilingual Evaluation Understudy) skóre metriky a CodeCarbon Machine Learning Emissions Calculator. Data byla školená po dobu 10 epoch.
Zjištění
Výzkumníci zjistili, že to byla prodloužená doba školení pro německé jazykové páry, která způsobila vyšší spotřebu uhlíku. Ačkoli některé jiné jazykové páry, jako je angličtina > francouzština a francouzština > angličtina, měly dokonce vyšší spotřebu uhlíku, školovaly se rychleji a řešily se snadněji, a tyto výkyvy spotřeby byly výzkumníky charakterizovány jako ‘relativně zanedbatelné’ ve vztahu ke spotřebě jazykovými páry, které zahrnují němčinu.

Analýza jazykových párů podle emisí kódéru/dekódéru.
Výzkumníci uzavírají:
‘Naše zjištění poskytují jasnou indikaci, že některé jazykové páry jsou více uhlíkově náročné na školení než ostatní, trend, který se přenáší přes různé architektury.’
Pokračují:
‘Nicméně, zůstávají nezodpovězené otázky týkající se toho, proč existují tak výrazné rozdíly ve školení modelů pro určitý jazykový pár oproti jinému, a zda by mohly být jiné architektury lépe přizpůsobeny pro tyto uhlíkově náročné jazykové páry, a proč by tomu tak bylo, pokud je to pravda.’
Článek zdůrazňuje, že důvody pro rozdíly ve spotřebě uhlíku mezi školicími modely nejsou zcela jasné. Předpokládají, že budou rozvíjet tuto linii studia s ne-latinovými jazyky.
1.20pm GMT+2 – Opravena chyba v textu.












