Hälso- och sjukvård
Diagnos av psykiska hälsostörningar genom AI-baserad utvärdering av ansiktsuttryck

Forskare från Tyskland har utvecklat en metod för att identifiera psykiska störningar baserat på ansiktsuttryck som tolkas av datorseende.
Den nya metoden kan inte bara skilja mellan opåverkade och påverkade personer, utan kan också korrekt skilja mellan depression och schizofreni, samt i vilken utsträckning patienten för närvarande påverkas av sjukdomen.
Forskarna har tillhandahållit en sammansatt bild som representerar kontrollgruppen för deras tester (till vänster i bilden nedan) och patienter som lider av psykiska störningar (till höger). Identiteten hos flera personer är blandad i representationerna, och varken bilden visar en specifik person:
Personer med affektiva störningar tenderar att ha höjda ögonbryn, tunga blickar, svullna ansikten och hängande munuttryck. För att skydda patientens integritet är dessa sammansatta bilder de enda som gjorts tillgängliga till stöd för det nya arbetet.
Tills nu har ansiktsuttrycksigenkänning främst använts som ett potentiellt verktyg för grundläggande diagnos. Den nya metoden erbjuder istället en möjlig metod för att utvärdera patientens framsteg under behandlingen, eller också (potentiellt, men artikeln föreslår det inte) i deras eget hem för outpatientövervakning.
Artikeln säger:
‘Att gå utöver maskindiagnos av depression i affektiv datoranvändning, som har utvecklats i tidigare studier, visar vi att den mätbara affektiva tillståndet som uppskattas med hjälp av datorseende innehåller mycket mer information än den rena kategoriska klassificeringen.’
Forskarna har döpt denna teknik till Opto Electronic Encephalography (OEG), en helt passiv metod för att inferera mental tillstånd genom ansiktsbildsanalys istället för topikala sensorer eller strålbaserad medicinsk avbildningsteknik.
Författarna slutsats är att OEG potentiellt kan vara inte bara ett sekundärt hjälpmedel för diagnos och behandling, utan också, på lång sikt, en potentiell ersättning för vissa utvärderingsdelar av behandlingsprocessen, och en som kan minska den tid som krävs för patientövervakning och initial diagnos. De noterar:
‘Sammanfattningsvis visar maskinens förutsägelser bättre korrelationer jämfört med de rena kliniska observatörsbaserade frågeformulären och är också objektiva. Den relativt korta mätperioden på några minuter för datorseendeansatserna är också anmärkningsvärd, medan timmar ibland krävs för kliniska intervjuer.’
Men författarna är angelägna om att betona att patientvård i detta område är en multimodal strävan, med många andra indikatorer på patientens tillstånd att beaktas än bara deras ansiktsuttryck, och att det är för tidigt att överväga att ett sådant system kunde helt ersätta traditionella tillvägagångssätt för psykiska störningar. Ändå anser de att OEG är en lovande adjungerad teknik, särskilt som en metod för att bedöma effekterna av farmakologisk behandling i en patients föreskrivna schema.
Den artikeln heter Ansiktet på affektiva störningar, och kommer från åtta forskare över ett brett spektrum av institutioner från den privata och offentliga medicinska forskningssektorn.
Data
(Den nya artikeln behandlar mestadels de olika teorierna och metoderna som för närvarande är populära i patientdiagnos av psykiska störningar, med mindre uppmärksamhet än vanligt till de faktiska teknologierna och processerna som används i testerna och olika experiment)
Datainsamlingen ägde rum vid Universitetssjukhuset i Aachen, med 100 könsspecifika patienter och en kontrollgrupp på 50 opåverkade personer. Patienterna inkluderade 35 personer med schizofreni och 65 personer med depression.
För patientdelen av testgruppen togs initiala mätningar vid tidpunkten för första sjukhusvistelsen, och den andra före utskrivning från sjukhuset, vilket omfattar en genomsnittlig period på 12 veckor. Kontrollgruppens deltagare rekryterades godtyckligt från den lokala befolkningen, med deras egen introduktion och “utskrivning” som speglade den för patienterna.
I själva verket måste den viktigaste “grundensanningen” för ett sådant experiment vara diagnoser som erhållits med godkända och standardmetoder, och detta var fallet för OEG-försöken.
Men datainsamlingssteget erhöll ytterligare data som var mer lämpliga för maskintolkning: intervjuer som varade i genomsnitt 90 minuter spelades in under tre faser med en Logitech c270-konsumentwebbkamera som kördes vid 25fps.
Den första sessionen bestod av en standard Hamilton-intervju (baserad på forskning som började runt 1960), såsom skulle ges vid ankomst. I den andra fasen, ovanligt, visades patienterna (och deras motparter i kontrollgruppen) videor av en serie ansiktsuttryck, och bad att härma var och en av dessa, samtidigt som de uppskattade sin egen mentala tillstånd vid den tiden, inklusive emotionell tillstånd och intensitet. Denna fas varade runt tio minuter.
I den tredje och sista fasen visades deltagarna 96 videor av skådespelare, som varade strax över tio sekunder vardera, som tycktes återge intensiva emotionella upplevelser. Deltagarna bad sedan att utvärdera emotionen och intensiteten som representerades i videorna, samt deras egna motsvarande känslor. Denna fas varade runt 15 minuter.
Metod
För att komma till den genomsnittliga medelvärdet av de fångade ansiktena (se första bilden ovan) fångades emotionella landmärken med EmoNet-ramverket. Därefter bestämdes korrespondensen mellan ansiktsformen och den genomsnittliga (medel) ansiktsformen genom piecewise affine transformation.
Dimensional emotion recognition och eye gaze prediction utfördes på varje landmärkessegment som identifierades i föregående skede.
Vid denna punkt har ljudbaserad emotionell inferens indikerat att en lärbar ögonblick har anlänt i patientens mentala tillstånd, och uppgiften är att fånga det motsvarande ansiktsbilden och utveckla den dimensionen och domänen av deras affektiva tillstånd.
(I videon ovan ser vi arbetet som utvecklats av författarna till den dimensionella emotionella erkännandetekniken som används av forskarna för det nya arbetet).
Formgeodesin för materialet beräknades för varje ram i data, och Singular Value Decomposition (SVD) reduktion tillämpades. Den resulterande tidsseriedata modellerades som en VAR-process, och sedan ytterligare reducerad via SVD före MAP-anpassning.
Valens- och upphetsningsvärdena i EmoNet-nätverket bearbetades också på samma sätt med VAR-modellering och sekvenskärnberäkning.
Experimenter
Som förklarats tidigare är det nya arbetet främst en medicinsk forskningsartikel snarare än en standard datorseendeinlämning, och vi hänvisar läsaren till artikeln själv för en djupgående täckning av de olika OEG-experimenten som utfördes av forskarna.
Ändå, för att sammanfatta ett urval av dem:
Affektiva störningssignaler
Här bad 40 deltagare (inte från kontroll- eller patientgruppen) att bedöma de utvärderade medelansiktena (se ovan) i fråga om ett antal frågor, utan att informeras om datakontexten. Frågorna var:
Vilket är kön för de två ansiktena?
Har ansiktena ett attraktivt utseende?
Är dessa ansikten pålitliga personer?
Hur bedömer du förmågan hos dessa personer att agera?
Vilken är emotionen hos de två ansiktena?
Vilken är hudutseendet hos de två ansiktena?
Vilken är intrycket av blicken?
Har de två ansiktena hängande munvinklar?
Har de två ansiktena höjda ögonbryn?
Är dessa personer kliniska patienter?
Forskarna fann att dessa blinda utvärderingar korrelerade till den registrerade tillståndet av den bearbetade data:
Klinisk bedömning
För att bedöma nyttan av OEG i initial bedömning, utvärderade forskarna först hur effektiv standardklinisk bedömning är genom att mäta förbättringsnivåer mellan introduktionen och den andra fasen (då patienten vanligtvis får läkemedelsbehandlingar.
Forskarna drog slutsatsen att status och symtomsvårighetsgrad kunde bedömas väl med denna metod, med en korrelation på 0,82. Men en exakt diagnos av antingen schizofreni eller depression visade sig vara mer utmanande, med den standardmetod som endast uppnådde en poäng på -0,03 vid denna tidiga fas.
Författarna kommenterar:
‘I själva verket kan patientens status bestämmas relativt väl med hjälp av de vanliga frågeformulären. Men det är i princip allt som kan dras från det. Om någon är deprimerad eller snarare schizofren är inte indikerat. Samma sak gäller för behandlingssvaret.’
Resultaten från maskinprocessen kunde uppnå högre poäng i detta problemområde, och jämförbara poäng för den initiala patientutvärderingsaspekten:

Högre nummer är bättre. Till vänster, standardintervju-baserad utvärderingsnoggrannhet över fyra faser av testarkitekturen; till höger, maskinbaserade resultat.
Störningsdiagnos
Att skilja depression från schizofreni via statiska ansiktsbilder är inte en trivial sak. Korsvaliderad, kunde maskinprocessen uppnå höga noggrannhetspoäng över de olika faserna av försöken:
I andra experiment kunde forskarna demonstrera bevis för att OEG kan uppfatta patientens förbättring genom farmakologisk behandling, och allmän behandling av störningen:
‘Den kausala inferensen över den empiriska förkunskapen om datainsamlingen justerade den farmakologiska behandlingen för att observera en återgång till den fysiologiska regleringen av ansiktsdynamiken. En sådan återgång kunde inte observeras under den kliniska förskrivningen.
‘För närvarande är det inte klart om en sådan maskinbaserad rekommendation verkligen skulle leda till en betydande bättre terapisuccés. Särskilt eftersom det är känt vilka bieffekter läkemedel kan ha under en lång tid.
‘Men [sådana] patientanpassade tillvägagångssätt skulle bryta barriärerna för den vanliga kategoriska klassificeringsschemat som fortfarande domineras i dagligt liv.’
* Min omvandling av författarnas inline-citat till hyperlänkar.
Publicerad första gången 3 augusti 2022.
















