Connect with us

Facebook Vytvořil Model Strojového Překladu, Který Může Přímě Přeložit Mezi 100 Rozdílnými Jazyky

Umělá inteligence

Facebook Vytvořil Model Strojového Překladu, Který Může Přímě Přeložit Mezi 100 Rozdílnými Jazyky

mm

Facebook nedávno vyvinul nový model strojového překladu, který může přeložit text mezi libovolnou dvojicí jazyků z набoru 100 jazyků. Zatímco jiné systémy strojového překladu existují, většina ostatních systémů umělých překladů funguje tak, že nejprve překládají text do angličtiny a poté převádějí text z angličtiny. Jak Engadget uvedl, umělý překladový systém Facebooku funguje bez použití angličtiny jako prostředníka a má údajně dosáhnout přibližně 90% přesnosti.

Školicí data pro model umělých inteligencí Facebooku se skládala z přibližně 7,5 miliard párů vět, rozdělených do 100 různých jazyků. Data byla sestavena z webu pomocí série webových procházejících programů a jazyky přítomné ve sbíraných datech byly identifikovány pomocí jazykového modelu zvaného FastText. Jakmile byla data shromážděna, byla spuštěna přes nástroj zvaný LASER 2.0 k extrahování významu různých vzorků vět a párování vět v různých jazycích na základě jejich významu. LASER 2.0 byl vyvinut Facebookem a využívá algoritmy nesupervizovaného učení k vytváření vložených reprezentací. Vložené reprezentace vět obsahují informace o vztazích mezi různými větami na základě funkcí, jako je frekvence použití a blízkost vět. LASER 2.0 je pak schopen vytvářet páry vět, které mají velmi podobný význam.

Školicí data nebyla pouze spárována na základě významu vět. Jazyky samy byly seskupeny dohromady. Cílem bylo navrhnout systém, který nevyžaduje angličtinu jako prostředníka mezi dvěma jazyky, s tím, že Angela Fan z Facebooku, která vedla projekt, poznamenala, že mnoho regionů po celém světě mluví dvěma jazyky, které nejsou angličtinou. Inženýři z Facebooku provedli školení se zaměřením na párování jazyků, které jsou běžně překládány z jednoho jazyka do druhého. Bylo vytvořeno čtrnáct různých jazykových skupin na základě proměnných, jako je kultura, lingvistické podobnosti a geografie. Jako příklad lze uvést, že jedna z lingvistických skupin vytvořených výzkumníky obsahovala nejčastěji používané jazyky v Indii, včetně jazyků Urdu, Tamil, Hindu a Bengali. To bylo provedeno tak, aby běžně párované jazyky dostaly kvalitní překlady.

Metoda školení zaměřená na jazykové skupiny vedla k některým zajímavým výsledkům. Bylo zjištěno, že výsledný překladový model měl větší přesnost než目前 existující modely pro určitá párování jazyků. Při překladu z angličtiny do běloruštiny, například, umělý inteligentní systém mohl použít určitá schémata, která se naučil při překladu ruštiny, protože běloruština má lingvistické podobnosti s ruštinou. Podobně se zlepšily překladové úsilí mezi španělštinou a portugalštinou, protože španělština je druhým nejčastěji používaným jazykem a existoval dostatečný objem školicích dat pro úkol.

Existuje přibližně šedesát jazyků, které překladový systém dosud nepokrývá, a přesnost modelu pro jazyky bez velkého množství školicích dat musí být verbessněna, než bude připraven k použití. Mnoho jazyků v jihovýchodní Asii a Africe postrádá dostatečné množství dat potřebných k výcviku spolehlivého modelu. Výzkumný tým musí určit způsob, jak kompenzovat tento nedostatek dat. Výzkumný tým musí také určit, jak kontrolovat rasistické, sexistické nebo jinak vulgární vzorce, které model mohl naučit. Zatímco výzkumný tým využil filtr profanit, filtr funguje hlavně na anglických datech.

Systém strojového překladu nebyl dosud použit na sociální platformě Facebook. Současný model je pouze pro výzkumné účely. Facebook se však chystá navrhnout podobné modely a nechat je zpracovat přibližně 20 miliard překladových požadavků, které web obdrží každý den.

Blogger a programátor se specializací na Machine Learning a Deep Learning témata. Daniel doufá, že pomůže ostatním využít sílu AI pro sociální dobro.