Artificiell intelligens

Läppläsning med visemer och maskinlärning

Published April 13, 2021

Updated April 5, 2026

Martin Anderson

HAL reads lips in 2001: A Space Odyssey (1968)

Ny forskning från Skolan för datorteknik i Teheran erbjuder en förbättrad metod för att skapa maskinlärningssystem som kan läsa läppar.
Den artikeln, med titeln Läppläsning med visemavkodning, rapporterar att det nya systemet uppnår en 4% förbättring av ordfelrate jämfört med de bästa tidigare modellerna. Systemet hanterar den allmänna bristen på användbar träningsdata i detta område genom att mappa visemer till textinnehåll som härrör från de sex miljoner exemplen i OpenSubtitles-databasen med översatta filmrubriker.
En visem är den visuella motsvarigheten till en fonem, effektivt en ljud>bild mappning som kan utgöra en ‘funktion’ i en maskinlärningsmodell.