Connect with us

Kunstig intelligens

Ny AI-ansigtsgenkendelsesteknologi går et skridt videre

mm

Det ser ud til, at brugen af kunstig intelligens i ansigtsgenkendelsesteknologi er en af de områder, der har udviklet sig længst indtil nu. Som ZDNet noterer, har selskaber som Microsoft allerede udviklet ansigtsgenkendelsesteknologi, der kan genkende ansigtsudtryk (FR) med brug af emotionsværktøjer. Men begrænsningsfaktoren indtil nu har været, at disse værktøjer kun har kunnet genkende otte såkaldte kerntilstande – vred, foragt, frygt, afsky, glæde, sorg, overraskelse eller neutral.

Nu træder den japanske teknologiudvikler Fujitsu ind med AI-baseret teknologi, der tager ansigtsgenkendelse et skridt videre i sporing af udtrykte emotioner.

Den eksisterende FR-teknologi er baseret, som ZDNet forklarer, på “identificering af forskellige handlingseenheder (AUs) – det vil sige bestemte ansigtsmuskelsbevægelser, vi laver, og som kan kobles til bestemte emotioner.” I et givet eksempel, “hvis både AU ‘kindhæver’ og AU ‘læbevinklehæver’ identificeres sammen, kan AI konkludere, at personen, der analyseres, er glad.

Som en Fujitsu-talsperson forklarede, “problemet med den nuværende teknologi er, at AI skal trænes på enorme datasæt for hver AU. Det skal vide, hvordan det kan genkende en AU fra alle mulige vinkler og positioner. Men vi har ikke nok billeder til det – så det er normalt ikke så nøjagtigt.”

En stor mængde data er nødvendig for at træne AI til at være effektiv i opdækkelse af emotioner, og det er meget svært for den nuværende FR at virkelig genkende, hvad den undersøgte person føler. Og hvis personen ikke sidder foran kameraet og kigger lige ind i det, bliver opgaven endnu sværere. Mange eksperter har bekræftet disse problemer i nogle seneste forskninger.

Fujitsu hævder, at de har fundet en løsning til at forbedre kvaliteten af ansigtsgenkendelsesresultater i opdækkelse af emotioner. I stedet for at bruge en stor mængde billeder til at træne AI, har deres nyoprettede værktøj til opgaven at “udtrække mere data ud af ét billede.” Selskabet kalder dette for ‘normaliseringsprocessen’, som indebærer at konvertere billeder “taget fra en bestemt vinkel til billeder, der ligner et frontalt billede.”

Som talspersonen forklarede, “Med det samme begrænsede datasæt kan vi bedre opdække flere AUs, selv i billeder taget fra en skæv vinkel, og med flere AUs kan vi identificere komplekse emotioner, som er mere subtile end de kerneudtryk, der nu analyseres.”

Selskabet hævder, at de nu kan “opdække emotionelle ændringer så detaljerede som nervøst latter, med en opdækningsnøjagtighed på 81%, et tal, der blev bestemt gennem ‘standardiserede evalueringmetoder’.” I sammenligning med uafhængig forskning, har Microsoft-værktøjer en nøjagtighed på 60%, og havde også problemer med at opdække emotioner, når det arbejdede med billeder taget fra mere skæve vinkler.

Som potentielle anvendelser nævner Fujitsu, at deres nye værktøjer kunne bruges til vejssikkerhed “ved at opdække selv små ændringer i chaufførernes koncentration.”

Tidligere diplomat og oversætter for FN, nuværende freelance journalist/forfatter/forsker, fokuserer på moderne teknologi, kunstig intelligens og moderne kultur.