Kunstmatige intelligentie

Facebook Creëert Machinevertalingmodel Dat Direct Tussen 100 Verschillende Talen Kan Vertalen

mm

Facebook heeft onlangs een nieuw machinevertalingmodel ontwikkeld dat tekst tussen elk gegeven paar talen uit een set van 100 talen kan vertalen. Terwijl andere machinevertalingssystemen bestaan, werken de meeste andere AI-vertalingssystemen door eerst tekst naar het Engels te vertalen en vervolgens de tekst van daaruit om te zetten. Volgens Engadget werkt Facebooks AI-vertaler zonder het Engels als tussenmedium te gebruiken en kan hij naar verluidt ongeveer 90% nauwkeurigheid bereiken.

Facebooks trainingsdata voor het AI-model bestond uit ongeveer 7,5 miljard paar zinnen, verdeeld over 100 verschillende talen. De data werd verzameld van het web met behulp van een reeks webcrawlers en de talen in de verzamelde data werden geïdentificeerd met behulp van een taalmodel genaamd FastText. Zodra de data was verzameld, werd deze doorgevoerd via een tool genaamd LASER 2.0 om de betekenis van de verschillende zinvoorbeelden te extraheren en zinnen in verschillende talen samen te voegen op basis van hun betekenis. LASER 2.0 werd ontwikkeld door Facebook en maakt gebruik van onbegeleide leer-algoritmes om embeddings te creëren. De zin-embeddings bevatten informatie over de relaties tussen verschillende zinnen op basis van kenmerken zoals frequentie van gebruik en hoe dichtbij zinnen bij elkaar staan. LASER 2.0 kan vervolgens paren van zinnen creëren die een hoog gelijke betekenis hebben.

De trainingsdata werd niet alleen gepaard op basis van zinbetekenissen. Talen zelf werden gegroepeerd. Het doel was om een systeem te ontwerpen dat geen Engels nodig had als medium tussen twee talen, met Facebooks Angela Fan, die het project leidde, opmerkend dat veel regio’s over de hele wereld twee talen spreken die geen Engels zijn. De Facebook-ingenieurs voerden training uit door zich te concentreren op het paren van talen die vaak van en naar elkaar worden vertaald. Veertien verschillende taalgroepen werden gecreëerd op basis van variabelen zoals cultuur, linguïstische overeenkomsten en geografie. Als voorbeeld bevatte een van de linguïstische groepen die door de onderzoekers werd gemaakt de meest gesproken talen in India, waaronder Urdu, Tamil, Hindi en Bengaals. Dit werd gedaan zodat vaak gepaarde talen van hoge kwaliteit vertalingen zouden ontvangen.

De taalgroep-gefocuste trainingsmethode leidde tot enkele interessante resultaten. Het bleek dat het resulterende vertaalmodel een grotere nauwkeurigheid had dan bestaande modellen voor bepaalde taalparen. Bij het vertalen van Engels naar Wit-Russisch, bijvoorbeeld, kon de AI bepaalde patronen toepassen die hij had geleerd bij het vertalen van Russisch, omdat Wit-Russisch linguïstische overeenkomsten met Russisch heeft. Vergelijkbare verbeteringen werden gezien bij vertalingen tussen Spaans en Portugees, aangezien Spaans de op een na meest gesproken taal is en er een aanzienlijke hoeveelheid trainingsdata voor de taak beschikbaar was.

Er zijn ongeveer zestig talen die het vertaalsysteem nog niet dekt, en de nauwkeurigheid van het model voor talen zonder veel trainingsdata moet worden verbeterd voordat het klaar is voor gebruik. Veel talen in Zuidoost-Azië en Afrika ontbreken de hoeveelheid data die nodig is om een betrouwbaar model te trainen. Het onderzoeksteam moet een manier vinden om deze gebrek aan data te compenseren. Het onderzoeksteam moet ook een manier vinden om te controleren op racistische, seksistische of anderszins profane patronen die het model mogelijk heeft geleerd. Hoewel het onderzoeksteam een profanity-filter heeft gebruikt, werkt deze filter voornamelijk op de Engelse data.

Het machinetranslatiesysteem is nog niet ingezet op Facebooks sociale mediaplatform. Het huidige model is alleen voor onderzoeksdoeleinden. Facebook bereidt zich echter voor om soortgelijke modellen te ontwerpen en deze te laten omgaan met de ongeveer 20 miljard vertaalverzoeken die de site elke dag ontvangt.

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.