Artificiell intelligens
Läppläsning med visemer och maskinlärning

Ny forskning från Skolan för datorteknik i Teheran erbjuder en förbättrad metod för att skapa maskinlärningssystem som kan läsa läppar.
Den artikeln, med titeln Läppläsning med visemavkodning, rapporterar att det nya systemet uppnår en 4% förbättring av ordfelrate jämfört med de bästa tidigare modellerna. Systemet hanterar den allmänna bristen på användbar träningsdata i detta område genom att mappa visemer till textinnehåll som härrör från de sex miljoner exemplen i OpenSubtitles-databasen med översatta filmrubriker.
En visem är den visuella motsvarigheten till en fonem, effektivt en ljud>bild mappning som kan utgöra en ‘funktion’ i en maskinlärningsmodell.

Visemer i aktion. Källa: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/












