Spojte se s námi

Umělá inteligence

Facebook vytváří model strojového překladu, který dokáže přímo překládat mezi 100 různými jazyky

mm

Facebook se nedávno rozvinul nový model strojového překladu který dokáže přeložit text mezi libovolnou dvojicí jazyků ze sady 100 jazyků. Zatímco existují jiné systémy strojového překladu, většina ostatních překladatelských systémů AI funguje tak, že nejprve přeloží text do angličtiny a poté text převede odtud.  Jak informoval EngadgetAI překladač Facebooku funguje bez použití angličtiny jako prostředníka a je údajně schopen dosáhnout přibližně 90% přesnosti.

Tréninková data Facebooku pro model AI se skládala z přibližně 7.5 miliardy párů vět, které byly distribuovány ve 100 různých jazycích. Data byla sestavena z webu pomocí řady webových prohledávačů a jazyky přítomné ve shromážděných datech byly identifikovány pomocí jazykového modelu zvaného FastText. Jakmile byla data shromážděna, bylo spuštěno pomocí nástroje nazvaného LASER 2.0 extrahovat význam různých ukázek vět a spojovat věty v různých jazycích dohromady na základě jejich významu. LASER 2.0 byl vyvinut společností Facebook a využívá algoritmy učení bez dozoru k vytváření vložení. Vložení vět obsahuje informace o vztazích mezi různými větami na základě funkcí, jako je frekvence použití a jak blízko si věty navzájem připadají. LASER 2.0 je pak schopen vytvářet věty, které mají velmi podobný význam.

Tréninková data nebyla spárována pouze na základě významů vět. Samotné jazyky byly seskupeny. Cílem bylo navrhnout systém, který nevyžaduje použití angličtiny jako média mezi dvěma jazyky, s Angelou Fan z Facebooku, která projekt vedla, a poznamenala, že mnoho regionů po celém světě mluví dvěma jazyky, které nejsou angličtina. Inženýři Facebooku provedli školení se zaměřením na párování jazyků, které se běžně překládají do az sebe navzájem. Bylo vytvořeno čtrnáct různých jazykových skupin založených na proměnných, jako je kultura, jazykové podobnosti a geografie. Například jedna z lingvistických skupin vytvořených výzkumníky obsahovala nejběžnější jazyky v celé Indii, mezi které patří jazyky urdština, tamilština, hindština a bengálština. Bylo to provedeno proto, aby běžně spárované jazyky dostávaly vysoce kvalitní překlady.

Metoda školení zaměřená na jazykové skupiny vede k zajímavým výsledkům. Bylo zjištěno, že výsledný model překladu měl větší přesnost než aktuálně existující modely pro určité jazykové páry. Například při překladu mezi angličtinou a běloruštinou dokázala AI použít určité vzorce, které se naučila při překladu ruštiny, protože běloruština má s ruštinou lingvistické podobnosti. Podobně se zlepšilo překladatelské úsilí mezi španělštinou a portugalštinou, protože španělština je druhým nejrozšířenějším jazykem a pro tento úkol bylo k dispozici značné množství školicích dat.

Existuje přibližně šedesát jazyků, které překladatelský systém ještě nepokrývá, a přesnost modelu v jazycích bez velkého množství trénovacích dat je třeba zlepšit, než bude připraven k použití. Mnoho jazyků v jihovýchodní Asii a Africe postrádá objem dat potřebný k trénování spolehlivého modelu. Výzkumný tým bude muset určit nějaký způsob, jak tento nedostatek dat kompenzovat. Výzkumný tým také potřebuje zjistit, jak kontrolovat jakékoli rasistické, sexistické nebo jinak profánní vzorce, které se model mohl naučit. Zatímco výzkumný tým použil filtr vulgárních výrazů, tento filtr funguje hlavně na anglických datech.

Systém strojového překladu zatím nebyl na platformě sociálních médií Facebooku použit. Současný model je pouze pro výzkumné účely. Facebook se však chystá navrhnout podobné modely a nechat je zpracovat přibližně 20 miliard požadavků na překlady, které web dostává každý den.