Kunstmatige intelligentie
Facebook Creëert Machinevertalingmodel Dat Direct Tussen 100 Verschillende Talen Kan Vertalen

Facebook heeft onlangs een nieuw machinevertalingmodel ontwikkeld dat tekst tussen elk gegeven paar talen uit een set van 100 talen kan vertalen. Terwijl andere machinevertaalsystemen bestaan, werken de meeste andere AI-vertaalsystemen door eerst tekst naar het Engels te vertalen en vervolgens de tekst van daaruit om te zetten. Zoals Engadget rapporteerde , werkt Facebook’s AI-vertaler zonder het Engels als tussenpersoon te gebruiken en kan naar verluidt ongeveer 90% nauwkeurigheid bereiken.
Facebook’s trainingsgegevens voor het AI-model bestonden uit ongeveer 7,5 miljard paar zinnen, verdeeld over 100 verschillende talen. De gegevens werden verzameld van het web met behulp van een reeks webcrawlers en de talen in de verzamelde gegevens werden geïdentificeerd met behulp van een taalmodel genaamd FastText. Zodra de gegevens waren verzameld, werden ze door een tool genaamd LASER 2.0 uitgevoerd om de betekenis van de verschillende zinvoorbeelden te extraheren en zinnen in verschillende talen samen te voegen op basis van hun betekenis. LASER 2.0 is ontwikkeld door Facebook en maakt gebruik van onbegeleide leeralgoritmen om embeddings te creëren. De zinembeddings bevatten informatie over de relaties tussen verschillende zinnen op basis van kenmerken zoals frequentie van gebruik en hoe dichtbij zinnen bij elkaar staan. LASER 2.0 kan vervolgens paren van zinnen creëren die een zeer vergelijkbare betekenis hebben.
De trainingsgegevens werden niet alleen gekoppeld op basis van zinbetekenissen. Talen zelf werden ook gegroepeerd. Het doel was om een systeem te ontwerpen dat geen Engels nodig had als medium tussen twee talen, met Facebook’s Angela Fan, die het project leidde, opmerkte dat veel regio’s over de hele wereld twee talen spreken die geen Engels zijn. De Facebook-ingenieurs voerden training uit door zich te concentreren op het koppelen van talen die vaak van en naar elkaar worden vertaald. Veertien verschillende taalgroepen werden gecreëerd, op basis van variabelen zoals cultuur, taalkundige overeenkomsten en geografie. Als voorbeeld bevatte een van de taalgroepen die door de onderzoekers was gemaakt de meest voorkomende talen in heel India, waaronder de talen Urdu, Tamil, Hindi en Bengali. Dit werd gedaan zodat veel voorkomende gekoppelde talen van hoge kwaliteit vertalingen zouden ontvangen.
De taalgerichte trainingsmethode leidde tot enkele interessante resultaten. Het bleek dat het resulterende vertaalmodel een grotere nauwkeurigheid had dan bestaande modellen voor bepaalde taalparen. Bij het vertalen van Engels naar Wit-Russisch, bijvoorbeeld, kon de AI bepaalde patronen toepassen die het had geleerd bij het vertalen van Russisch, omdat Wit-Russisch taalkundige overeenkomsten met Russisch heeft. Vergelijkbare vertaalefforts tussen Spaans en Portugees verbeterden ook, omdat Spaans de op een na meest gesproken taal is en er een aanzienlijke hoeveelheid trainingsgegevens voor de taak was.
Er zijn ongeveer zestig talen die het vertaalsysteem nog niet dekt, en de nauwkeurigheid van het model voor talen zonder veel trainingsgegevens moet worden verbeterd voordat het klaar is voor gebruik. Veel talen in Zuidoost-Azië en Afrika ontbreken de hoeveelheid gegevens die nodig is om een betrouwbaar model te trainen. Het onderzoeksteam moet een manier vinden om dit gebrek aan gegevens te compenseren. Het onderzoeksteam moet ook bepalen hoe ze racistische, sexistische of anderszins vuile patronen die het model heeft geleerd, kunnen controleren. Terwijl het onderzoeksteam gebruik heeft gemaakt van een vuilfilter, werkt het filter voornamelijk op de Engelse gegevens.
Het machinevertaalsysteem is nog niet op Facebook’s socialemediaplatform gebruikt. Het huidige model is alleen voor onderzoeksdoeleinden. Facebook is echter bezig om soortgelijke modellen te ontwerpen en deze te laten omgaan met de ongeveer 20 miljard vertaalverzoeken die de site elke dag ontvangt.








