Gesundheitswesen
Diagnose von psychischen Störungen durch AI-Gesichtsausdrucksbewertung

Forscher aus Deutschland haben eine Methode entwickelt, um psychische Störungen anhand von Gesichtsausdrücken zu identifizieren, die von der Computer-Vision interpretiert werden.
Die neue Methode kann nicht nur zwischen unbeeinflussten und betroffenen Personen unterscheiden, sondern auch richtig zwischen Depression und Schizophrenie sowie dem Ausmaß, in dem der Patient derzeit von der Krankheit betroffen ist, unterscheiden.
Die Forscher haben ein Kompositbild bereitgestellt, das die Kontrollgruppe für ihre Tests darstellt (links im Bild unten) und die Patienten, die an psychischen Störungen leiden (rechts). Die Identitäten mehrerer Personen sind in den Darstellungen vermischt, und keines der Bilder zeigt eine bestimmte Person:
Personen mit affektiven Störungen neigen dazu, erhobene Augenbrauen, bleierne Blicke, geschwollene Gesichter und hängende Mundausdrücke zu haben. Um die Privatsphäre der Patienten zu schützen, sind diese Kompositbilder die einzigen, die im Rahmen der neuen Arbeit verfügbar gemacht werden.
Bis jetzt wurde die Gesichtsausdrucksanalyse hauptsächlich als potenzielles Werkzeug für die grundlegende Diagnose verwendet. Die neue Methode bietet dagegen eine mögliche Methode, um den Fortschritt der Patienten während der Behandlung oder möglicherweise (obwohl das Papier dies nicht vorschlägt) in ihrer eigenen häuslichen Umgebung für die ambulante Überwachung zu bewerten.
Das Papier besagt*:
‘Über die maschinelle Diagnose von Depressionen in der affektiven Informatik hinaus, die in früheren Studien entwickelt wurde, zeigen wir, dass der messbare affektive Zustand, der durch Computer-Vision geschätzt wird, viel mehr Informationen enthält als die reine kategorische Klassifizierung.’
Die Forscher haben diese Technik Opto-Elektronische Enzephalographie (OEG) genannt, eine völlig passive Methode, um den mentalen Zustand durch Gesichtsbildanalyse anstelle von topischen Sensoren oder strahlungsbezogenen medizinischen Bildgebungsverfahren abzuleiten.
Die Autoren kommen zu dem Schluss, dass OEG möglicherweise nicht nur ein sekundärer Helfer bei der Diagnose und Behandlung sein könnte, sondern langfristig auch ein potenzieller Ersatz für bestimmte evaluative Teile der Behandlungspipeline sein könnte, der die Zeit für die Patientenüberwachung und die anfängliche Diagnose verkürzen könnte. Sie bemerken:
‘Insgesamt zeigen die vom Computer vorhergesagten Ergebnisse bessere Korrelationen im Vergleich zu den reinen klinischen Beobachter-Rating-Fragebögen und sind auch objektiv. Die relativ kurze Messdauer von wenigen Minuten für die Computer-Vision-Ansätze ist auch bemerkenswert, während für die klinischen Interviews manchmal Stunden erforderlich sind.’
Jedoch betonen die Autoren, dass die Patientenversorgung in diesem Bereich ein multimodales Vorhaben ist, bei dem viele andere Indikatoren für den Patientenzustand zu berücksichtigen sind als nur ihre Gesichtsausdrücke, und dass es zu früh ist, um zu erwägen, dass ein solches System die traditionellen Ansätze bei psychischen Störungen vollständig ersetzen könnte. Dennoch betrachten sie OEG als vielversprechende Ergänzungstechnologie, insbesondere als Methode, um die Wirkung einer pharmazeutischen Behandlung in der verschriebenen Therapie eines Patienten zu bewerten.
Das Papier trägt den Titel Das Gesicht affektiver Störungen und stammt von acht Forschern aus einer breiten Palette von Institutionen aus dem privaten und öffentlichen medizinischen Forschungssektor.
Daten
(Die neue Arbeit beschäftigt sich hauptsächlich mit den verschiedenen Theorien und Methoden, die derzeit in der Patientendiagnose von psychischen Störungen populär sind, mit weniger Aufmerksamkeit als üblich für die tatsächlichen Technologien und Prozesse, die in den Tests und verschiedenen Experimenten verwendet werden)
Die Datenerfassung fand am Universitätsklinikum Aachen statt, mit 100 geschlechtsbalancierten Patienten und einer Kontrollgruppe von 50 nicht betroffenen Personen. Die Patienten umfassten 35 Schizophrenie-Erkrankte und 65 Menschen, die an Depressionen litten.
Für den Patiententeil der Testgruppe wurden die anfänglichen Messungen zum Zeitpunkt der ersten Hospitalisierung durchgeführt, und die zweite vor ihrer Entlassung aus dem Krankenhaus, was einen durchschnittlichen Zeitraum von 12 Wochen umfasste. Die Teilnehmer der Kontrollgruppe wurden willkürlich aus der lokalen Bevölkerung rekrutiert, mit ihrer eigenen Induktion und “Entlassung”, die der der tatsächlichen Patienten entsprach.
In der Tat muss die wichtigste “Ground Truth” für ein solches Experiment die durch anerkannte und standardmäßige Methoden ermittelten Diagnosen sein, und dies war der Fall für die OEG-Tests.
Jedoch erhielt die Datenerfassungsphase zusätzliche Daten, die besser für die maschinelle Interpretation geeignet waren: Interviews mit einer durchschnittlichen Dauer von 90 Minuten wurden über drei Phasen mit einer Logitech c270-Consumer-Webcam aufgezeichnet, die mit 25fps lief.
Die erste Sitzung bestand aus einem standardmäßigen Hamilton-Interview (basierend auf Forschung, die um 1960 begann), wie es normalerweise bei der Aufnahme durchgeführt würde. In der zweiten Phase wurden die Patienten (und ihre Gegenstücke in der Kontrollgruppe) ungewöhnlicherweise eine Reihe von Gesichtsausdrücken gezeigt und aufgefordert, jeden davon nachzuahmen, während sie ihre eigene Schätzung ihres mentalen Zustands zu diesem Zeitpunkt angaben, einschließlich emotionaler Zustand und Intensität. Diese Phase dauerte etwa zehn Minuten.
In der dritten und finalen Phase wurden den Teilnehmern 96 Videos von Schauspielern gezeigt, die jeweils etwa zehn Sekunden lang waren, und die anscheinend intensive emotionale Erfahrungen schilderten. Die Teilnehmer wurden dann aufgefordert, die Emotion und Intensität in den Videos zu bewerten, sowie ihre eigenen entsprechenden Gefühle. Diese Phase dauerte etwa 15 Minuten.
Methode
Um den Mittelwert der aufgenommenen Gesichter zu ermitteln (siehe erstes Bild oben), wurden emotionale Landmarken mit dem EmoNet-Framework erfasst. Anschließend wurde die Korrespondenz zwischen der Gesichtsform und der mittleren (durchschnittlichen) Gesichtsform durch stückweise affine Transformation bestimmt.
Dimensionale Emotionserkennung und Blickvorhersage wurden für jeden im vorherigen Schritt identifizierten Landmarkensegment durchgeführt.
An diesem Punkt hat die audio-basierte Emotionsinferenz angezeigt, dass ein lehrreiches Moment im mentalen Zustand des Patienten eingetreten ist, und die Aufgabe besteht darin, das entsprechende Gesichtsbild zu erfassen und diese Dimension und Domäne seines affektiven Zustands zu entwickeln.
(Im oben angezeigten Video sehen wir die Arbeit, die von den Autoren der dimensional-emotionalen Erkennungstechnologien entwickelt wurde, die von den Forschern für die neue Arbeit verwendet werden).
Die Form-Geodäsie des Materials wurde für jeden Frame der Daten berechnet, und eine Singular-Value-Decomposition (SVD)-Reduktion wurde angewendet. Die resultierenden Zeitreihendaten wurden schließlich als VAR-Prozess modelliert und dann weiter über SVD vor der MAP-Anpassung reduziert.
Die Valenz- und Erregungswerte im EmoNet-Netzwerk wurden ebenfalls ähnlich mit VAR-Modellierung und Sequenzkernberechnung verarbeitet.
Experimente
Wie bereits erklärt, ist die neue Arbeit hauptsächlich ein medizinisches Forschungspapier und kein Standard-Computer-Vision-Einreichung, und wir verweisen den Leser auf das Papier selbst für eine ausführliche Abhandlung der diversen OEG-Experimente, die von den Forschern durchgeführt wurden.
Trotzdem, um eine Auswahl davon zusammenzufassen:
Affektive Störungsmerkmale
Hier wurden 40 Teilnehmer (nicht aus der Kontroll- oder Patientengruppe) aufgefordert, die bewerteten Mittelgesichter (siehe oben) in Bezug auf eine Reihe von Fragen zu bewerten, ohne über den Kontext der Daten informiert zu werden. Die Fragen waren:
Was ist das Geschlecht der beiden Gesichter?
Haben die Gesichter ein attraktives Aussehen?
Sind diese Gesichter vertrauenswürdige Personen?
Wie beurteilen Sie die Fähigkeit dieser Menschen, zu handeln?
Welche Emotion haben die beiden Gesichter?
Wie ist das Hautaussehen der beiden Gesichter?
Was ist der Eindruck des Blicks?
Haben die beiden Gesichter hängende Mundwinkel?
Haben die beiden Gesichter erhobene Augenbrauen?
Sind diese Personen klinische Patienten?
Die Forscher fanden heraus, dass diese blinden Bewertungen mit dem registrierten Zustand der verarbeiteten Daten korrelierten:
Klinische Beurteilung
Um die Nützlichkeit von OEG bei der anfänglichen Beurteilung zu bewerten, bewerteten die Forscher zunächst, wie effektiv die standardmäßige klinische Beurteilung allein ist, indem sie die Verbesserungsniveaus zwischen der Induktion und der zweiten Phase (zu der Zeit, in der der Patient in der Regel medikamentöse Behandlungen erhält) maßen.
Die Forscher kamen zu dem Schluss, dass der Status und die Symptombewertung mit dieser Methode gut beurteilt werden können, wobei eine Korrelation von 0,82 erreicht wurde. Es erwies sich jedoch als schwieriger, eine genaue Diagnose von entweder Schizophrenie oder Depression zu erstellen, wobei die Standardmethode nur einen Score von -0,03 in diesem frühen Stadium erreichte.
Die Autoren kommentieren:
‘Im Wesentlichen kann der Patientenstatus relativ gut mit den üblichen Fragebögen bestimmt werden. Es kann jedoch nicht daraus geschlossen werden, ob jemand depressiv oder eher schizophren ist. Das Gleiche gilt für die Behandlungsantwort.’
Die Ergebnisse des maschinellen Prozesses konnten höhere Scores in diesem Problemfeld erzielen und vergleichbare Scores für die anfängliche Patientenbewertung:

Höhere Zahlen sind besser. Links: Standard-Interview-basierte Bewertungsergebnisse über vier Phasen der Testarchitektur; rechts: maschinelle Ergebnisse.
Störungsdiagnose
Die Unterscheidung zwischen Depression und Schizophrenie anhand statischer Gesichtsbilder ist keine triviale Angelegenheit. Mit Kreuzvalidierung konnte der maschinelle Prozess hohe Genauigkeitsscores über die verschiedenen Phasen der Tests erzielen:
In anderen Experimenten konnten die Forscher belegen, dass OEG die Verbesserung des Patienten durch pharmakologische Behandlung und allgemeine Behandlung der Störung wahrnehmen kann:
‘Die kausale Inferenz über das empirische Vorwissen der Datenerfassung passte die pharmakologische Behandlung an, um eine Rückkehr zur physiologischen Regulierung der Gesichtsdynamik zu beobachten. Eine solche Rückkehr konnte während der klinischen Verschreibung nicht beobachtet werden.
‘Im Moment ist es nicht klar, ob eine solche maschinelle Empfehlung tatsächlich zu einem signifikant besseren Erfolg der Therapie führen würde. Insbesondere weil bekannt ist, welche Nebenwirkungen Medikamente über einen langen Zeitraum haben können.
‘Jedoch würden solche patientenangepasste Ansätze die Barrieren des gemeinsamen kategorialen Klassifizierungsschemas durchbrechen, das noch immer dominant in der täglichen Praxis verwendet wird.’
* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.
Erstveröffentlicht am 3. August 2022.
















