Artificiell intelligens
Facebook skapar maskinöversättningsmodell som kan översätta direkt mellan 100 olika språk

Facebook har nyligen utvecklat en ny maskinöversättningsmodell som kan översätta text mellan valfri given språkpar av ett urval på 100 språk. Medan andra maskinöversättningsystem finns, fungerar de flesta andra AI-översättningsystem genom att först översätta texten till engelska och sedan konvertera texten därifrån. Som Engadget rapporterade, fungerar Facebooks AI-översättare utan att använda engelska som mellanhand och kan uppnå ungefär 90 procents noggrannhet.
Facebooks träningsdata för AI-modellen bestod av cirka 7,5 miljarder par meningar, fördelade på 100 olika språk. Datat samlades in från webben med hjälp av en serie webbcrawlers, och språken i den insamlade datan identifierades med hjälp av en språkmodell som kallas FastText. När datat var insamlat, kördes det genom ett verktyg som kallas LASER 2.0 för att extrahera meningarna i de olika meningsexemplen och matcha meningar i olika språk tillsammans baserat på deras mening. LASER 2.0 utvecklades av Facebook och använder icke övervakade inlärningsalgoritmer för att skapa inbäddningar. Meninginbäddningarna innehåller information om relationerna mellan olika meningar baserat på funktioner som användningsfrekvens och hur nära meningar visas i förhållande till varandra. LASER 2.0 kan sedan skapa par av meningar som har mycket liknande meningar.
Träningsdatat grupperades inte bara utifrån meningarnas mening. Språken i sig grupperades också. Målet var att utforma ett system som inte krävde att engelska användes som medium mellan två språk, med Facebooks Angela Fan, som ledde projektet, noterade att många regioner runt om i världen talar två språk som inte är engelska. Facebooks ingenjörer genomförde utbildningen genom att fokusera på att para språk som ofta översätts till och från varandra. Fjorton olika språkgrupper skapades, baserat på variabler som kultur, språkliga likheter och geografi. Till exempel innehöll en av de språkliga grupper som skapades av forskarna de vanligaste språken i hela Indien, som inkluderar språken urdu, tamil, hindi och bengali. Detta gjordes så att vanligt parade språk skulle få högkvalitativa översättningar.
Den språkgruppsinriktade utbildningsmetoden ledde till vissa intressanta resultat. Det visade sig att den resulterande översättningsmodellen hade högre noggrannhet än befintliga modeller för vissa språkpar. När man till exempel översatte mellan engelska och vitryska kunde AI tillämpa vissa mönster den hade lärt sig när den översatte ryska, eftersom vitryska har språkliga likheter med ryska. Likaså förbättrades översättningsinsatserna mellan spanska och portugisiska, eftersom spanska är det näst vanligaste språket och det fanns en betydande volym träningsdata för uppgiften.
Det finns ungefär sextio språk som översättningssystemet inte täcker ännu, och modellens noggrannhet för språk utan mycket träningsdata behöver förbättras innan den är redo för användning. Många språk i Sydostasien och Afrika saknar den volym av data som behövs för att träna en tillförlitlig modell. Forskningsgruppen måste bestämma något sätt att kompensera för bristen på data. Forskningsgruppen måste också bestämma hur man ska kontrollera eventuella rasistiska, sexistiska eller andra stötande mönster som modellen kan ha lärt sig. Medan forskningsgruppen har använt ett svordomfilter, fungerar filtret främst på engelska data.
Maskinöversättningssystemet har inte använts på Facebooks sociala medieplattform ännu. Den aktuella modellen är endast för forskningsändamål. Facebook förbereder sig dock för att utforma liknande modeller och låta dem hantera de cirka 20 miljarder översättningsförfrågningar som webbplatsen tar emot varje dag.








