Kunstmatige intelligentie
Baidu verslaat Google en Microsoft, creëert nieuwe techniek voor taalbegrip

Baidu, een van de grootste technologiebedrijven in China, heeft onlangs een nieuwe methode ontwikkeld om AI’s te leren taal te begrijpen. Zoals gerapporteerd door TechnologyReview, heeft het bedrijf onlangs Microsoft en Google verslagen bij de General Language and Understanding Evaluation (GLUE)-wedstrijd, met state-of-the-art resultaten.
GLUE bestaat uit negen verschillende tests, waarbij elke test een andere taak meet die belangrijk is voor het begrijpen van taal, zoals het onderscheiden van namen van entiteiten in een zin en het onderscheiden van de context waarin het voornaamwoord “het” wordt gebruikt wanneer er meerdere potentiële kandidaten zijn. De gemiddelde mens scoort ongeveer 87 punten op GLUE, uit een totaal van 100. Baidu’s nieuwe model, ERNIE, heeft de drempel van 90 punten doorbroken.
Onderzoekers proberen altijd de prestaties van hun modellen bij GLUE te verbeteren, en daarom zal de huidige standaard die door Baidu is ingesteld, waarschijnlijk snel worden overtroffen. Wat Baidu’s prestaties echter opmerkelijk maakt, is dat de leerbenadering die ze gebruiken, lijkt te kunnen generaliseren naar andere talen. Ondanks dat het model is ontwikkeld om Chinees te interpreteren, maken dezelfde principes het beter in het interpreteren van de Engelse taal. ERNIE staat voor “Enhanced Representation through knowledge Integration”, en het volgt de ontwikkeling van de BERT (“Bidirectional Encoder Representations from Transformers”)-taalmodel.
BERT heeft een nieuwe standaard gezet voor taalbegrip vanwege het feit dat het een bidirectioneel model is. Eerder taalmodellen konden alleen data interpreteren die in één “richting” stroomden, waarbij ze naar een woord keken dat voor of na het doelwoord kwam als context. BERT kon een bidirectionele benadering implementeren die zowel eerder als later woorden in een zin kon gebruiken om de betekenis van een doelwoord te helpen bepalen. BERT gebruikt een techniek genaamd masking om bidirectionele analyse mogelijk te maken, waarbij een woord in een zin wordt gekozen en verborgen, waardoor de mogelijke context voor dat woord in voorafgaande en volgende contextaanwijzingen wordt gesplitst.
In de Engelse taal is het woord de dominante semantische eenheid, mensen kijken naar hele woorden in plaats van naar individuele letters om de betekenis te bepalen. Het is mogelijk om een woord uit zijn context te verwijderen en het woord behoudt nog steeds zijn betekenis, en de betekenis van individuele letters is bijna altijd hetzelfde. In tegenstelling tot de Chinese taal, die veel meer afhankelijk is van hoe karakters worden gecombineerd met andere karakters om de betekenis te bepalen. Karakters kunnen verschillende dingen betekenen, afhankelijk van de karakters eromheen.
Het onderzoeksteam van Baidu heeft het model van BERT eigenlijk uitgebreid, door in plaats van volledige woorden, tekenreeksen te verbergen. Het AI-systeem werd ook getraind om te differentiëren tussen willekeurige tekenreeksen en betekenisvolle tekenreeksen, zodat de juiste tekenreeksen van karakters konden worden gemaskeerd. Dit maakt ERNIE vaardig in het ophalen van informatie uit een tekstdocument en het uitvoeren van machinetaalvertaling. Het onderzoeksteam ontdekte ook dat hun trainingsmethode resulteerde in een model dat Engelse uitdrukkingen beter kon onderscheiden dan veel andere modellen. Dit komt omdat het Engels soms, hoewel zelden, woordcombinaties gebruikt die verschillende betekenissen uitdrukken wanneer ze samen worden gebruikt in plaats van afzonderlijk. Eigennamen en idiomatische uitdrukkingen of informele uitdrukkingen, zoals “chip off the old block”, zijn voorbeelden van dergelijke linguïstische fenomenen.
ERNIE maakt gebruik van meerdere andere trainingsmethoden om de prestaties te optimaliseren, waaronder het analyseren van zinvolgorde en -afstand bij het interpreteren van alinea’s. Een continue trainingsmethode wordt ook gebruikt, waardoor ERNIE kan trainen op nieuwe gegevens en nieuwe patronen kan leren zonder eerder verworven kennis te vergeten.
Baidu gebruikt momenteel ERNIE om de kwaliteit van zoekresultaten te verbeteren. De laatste architectuur van ERNIE zal worden gedetailleerd in een aanstaand artikel dat zal worden gepresenteerd op de 2020 Association for the Advancement of Artificial Intelligence-conferentie.












