Connect with us

Kunstig intelligens

Ny AI-basert ansiktsgjenkjenningsteknologi går et skritt videre

mm

Det ser ut til at bruken av kunstig intelligens i ansiktsgjenkjenningsteknologi er en som har vokst mest så langt. Som ZDNet noterer, har selskaper som Microsoft allerede utviklet ansiktsgjenkjenningsteknologi som kan gjenkjenne ansiktsuttrykk (FR) med hjelp av emosjonsteknologi. Men begrensningen så langt har vært at disse verktøyene bare har vært begrenset til åtte, såkalte kjerne-tilstander – sinne, forakt, frykt, avsky, lykke, sorg, overraskelse eller nøytral.

Nå kommer den japanske teknologiutvikleren Fujitsu med AI-basert teknologi som tar ansiktsgjenkjenning ett skritt videre i sporing av uttrykte emosjoner.

Den eksisterende FR-teknologien er basert, som ZDNet forklarer, på “identifisering av ulike handlingseenheter (AUs) – det vil si bestemte ansiktsmuskulaturbevegelser vi gjør og som kan kobles til bestemte emosjoner.” I et gitt eksempel, “hvis både AU ‘kinneheiser’ og AU ‘lepehjørne-trekker’ blir identifisert sammen, kan AI konkludere med at personen det analyserer er glad.

Som en Fujitsu-talsperson forklarte, “problemet med den nåværende teknologien er at AI må bli trent på enorme datamengder for hver AU. Den må vite hvordan den kan gjenkjenne en AU fra alle mulige vinkler og posisjoner. Men vi har ikke nok bilder for det – så vanligvis er det ikke så nøyaktig.”

En stor mengde data trengs for å trene AI til å være effektiv i å detektere emosjoner, og det er svært vanskelig for den nåværende FR å virkelig gjenkjenne hva personen som undersøkes føler. Og hvis personen ikke sitter foran kameraet og ser rett inn i det, blir oppgaven enda vanskeligere. Mange eksperter har bekreftet disse problemene i noen nye studier.

Fujitsu hevder å ha funnet en løsning for å øke kvaliteten på ansiktsgjenkjenningresultater i å detektere emosjoner. I stedet for å bruke en stor mengde bilder for å trene AI, har deres nyopprettede verktøy oppgaven å “uttrekke mer data fra ett bilde.” Selskapet kaller dette ‘normaliseringsprosessen’, som innebærer å konvertere bilder “tatt fra en bestemt vinkel til bilder som ligner et frontbilde.”

Som talspersonen forklarte, “Med den samme begrensede datamengden, kan vi bedre detektere flere AUs, selv i bilder tatt fra en skjev vinkel, og med flere AUs, kan vi identifisere komplekse emosjoner, som er mer subtile enn de kjerne-uttrykkene som nå analyseres.”

Selskapet hevder at de nå kan “detektere emosjonelle endringer så omfattende som nervøs latter, med en deteksjonsnøyaktighet på 81%, et tall som ble bestemt gjennom ‘standard evalueringmetoder’.” I sammenligning, ifølge uavhengig forskning, har Microsoft-verktøyene en nøyaktighet på 60%, og hadde også problemer med å detektere emosjoner når de arbeidet med bilder tatt fra mer skjeve vinkler.

Som mulige anvendelser, nevner Fujitsu at deres nye verktøy kan blant annet brukes til vegsikkerhet “ved å detektere selv små endringer i sjåførenes konsentrasjon.”

Tidligere diplomat og oversetter for FN, nå frilans journalist/forfatter/forsker, med fokus på moderne teknologi, kunstig intelligens og moderne kultur.