Vernetzen Sie sich mit uns

Künstliche Intelligenz

Emotionen durch Typografie mit KI ausdrücken

mm
Aktualisiert on

Aktuelle Trends und Innovationen in der Textkommunikation (einschließlich E-Mail-, Messaging- und Untertitelsystemen) müssen die affektive Kluft zwischen geschriebener und gesprochener Sprache auf grobe und annähernde Weise überwinden.

Die letzten Jahre haben zum Beispiel gebracht abwechselnde Kappen kommt als provokantes Meme in Social-Media-Flammenkriegen in Mode, während das viel gehasst Die Verwendung der Feststelltaste (sowie fettgedruckte und auffällige typografische Effekte, die auf einigen Kommentarplattformen zulässig sind) führt weiterhin zu Interventionen von Moderatoren. Dabei handelt es sich um monotone und nur weitgehend repräsentative Methoden zur Klärung der Absicht des geschriebenen Wortes.

Gleichzeitig hat die Beliebtheit von Emoticons und Emojis als hybriden textuellen/visuellen Gefühlsübermittlern zugenommen aktiv engagiert Der Forschungssektor Natural Language Processing (NLP) hat sich in den letzten Jahren weiter entwickelt, zusammen mit dem Interesse daran Bedeutung animierter GIFs dass Benutzer in Kommentarthreads posten.

Im Laufe der Zeit hat die geschriebene Sprache einen innovativen Fundus dieser „additiven“ linguistischen Methoden entwickelt, die entweder versuchen, Emotionen zu vermitteln oder sie in Abwesenheit der tonalen Informationen im gesprochenen Wort hervorzurufen.

Normalerweise müssen wir die Emotion jedoch so gut wie möglich aus dem Kontext des geschriebenen Wortes wiedergeben. Betrachten Sie zum Beispiel die Ausruf 'Oh oh oh!', am Ende von Lady Macbeths verrücktem nächtlichen Monolog, wohl eine Fallstudie darüber, inwieweit die Intonation die Bedeutung beeinflussen kann.

In den meisten Adaptionen dauert dieses schmerzerfüllte Wehklagen 2-6 Sekunden; in Trevor Nunns Produktion der Royal Shakespeare Company von 1976 Macbeth, Judi Dench brachte die Lektüre dieser Zeile zu einer vielleicht unangefochtenen Aufzeichnung von 24.45 Sekunden, in einer bahnbrechenden Interpretation der Rolle.

MACBETH – William Shakespeare – Ian McKellen – Judi Dench – HD WIEDERHERGESTELLT – 4K

(YouTubes eigenes System zur automatischen Untertitelung dieses Clips beschreibt Denchs Jubelruf als [MUSIK])

Prosodie in Typografie übersetzen

In einem kürzlich erschienenen Artikel aus Brasilien wird ein System sprachmodulierter Typografie vorgeschlagen, das dies möglicherweise integrieren könnte Prosodieund andere paralinguistische Komponenten direkt in die Untertitelsprache ein, wodurch eine Dimension der Emotionen hinzugefügt wird, die durch das Voranstellen von Adjektiven wie z. B. nur schlecht erfasst wird [Schreien]oder die anderen „flachen“ Tricks, die für Untertitelkonventionen zur Verfügung stehen.

„Wir schlagen ein neuartiges Modell der sprachmodulierten Typografie vor, bei dem akustische Merkmale der Sprache verwendet werden, um das visuelle Erscheinungsbild von Text zu modulieren.“ Dies könnte es ermöglichen, dass die Transkription einer bestimmten Äußerung nicht nur die gesagten Wörter darstellt, sondern auch, wie sie gesagt wurden.

„Wir hoffen, damit typografische Parameter aufzudecken, die allgemein als visuelle Proxys für die prosodischen Merkmale Amplitude, Tonhöhe und Dauer erkannt werden können.“

Der Workflow, der Prosodie in typografische Gestaltung umwandelt. Mit dem Ziel, ein möglichst vielseitiges und breit einsetzbares System zu entwickeln, beschränkten sich die Autoren auf Grundlinienverschiebung, Kerning und Fettdruck, wobei letzteres durch die Vielseitigkeit einer offenen Schriftart gewährleistet wurde. Quelle: https://arxiv.org/pdf/2202.10631.pdf

Der Workflow, der Prosodie in typografische Gestaltung umwandelt. Mit dem Ziel, ein möglichst vielseitiges und breit einsetzbares System zu entwickeln, beschränkten sich die Autoren auf Grundlinienverschiebung, Kerning und Fettdruck, wobei letzteres durch die Vielseitigkeit einer offenen Schriftart gewährleistet wurde. Quelle: https://arxiv.org/pdf/2202.10631.pdf

Die Krepppapier ist betitelt Verstecktes Heulen, Flüstern und Jaulen: Kann man einen Text so gestalten, dass er mehr klingt als nur seine Worte?, und stammt von Calua de Lacerda Pataca und Paula Dornhofer Paro Costa, zwei Forschern an der Universidade Estadual de Campinas in Brasilien.

Mutige Worte

Obwohl das übergeordnete Ziel des Projekts darin besteht, Systeme zu entwickeln, die Prosodie und andere parametrische Sprachmerkmale in Untertiteln vermitteln können, glauben die Autoren auch, dass ein System dieser Art letztendlich ein breiteres Publikum in der hörenden Welt erreichen könnte.

Es gibt viele frühere Initiativen in diesem Bereich, darunter a 1983-Projekt das ein Untertitelsystem vorgeschlagen hat, das Folgendes umfassen könnte: „Spezialeffekte, Farben und Großbuchstaben [zur Darstellung] der reichhaltigen Toninformationen, die gehörlosen Kindern verwehrt bleiben[.]“.

Im Gegensatz dazu ist das brasilianische Projekt in der Lage, sowohl die automatisierte Transkription als auch neue Entwicklungen in der Affekterkennung zu nutzen, die zusammen einen Arbeitsablauf ermöglichen, der die Komponenten in einem Sprachsoundtrack importieren und charakterisieren kann.

Nachdem die prosodischen Merkmale extrahiert und verarbeitet wurden, werden sie den Zeitstempeln der Wörter in der Sprache zugeordnet, wodurch Token erzeugt werden, die dann verwendet werden können, um eine regelbasierte Modulation der Untertiteltypografie anzuwenden (siehe Abbildung oben).

Dieses Ergebnis kann visuell darstellen, inwieweit eine bestimmte Silbe in die Länge gezogen, geflüstert oder betont wird oder auf andere Weise Kontextinformationen enthält, die in einer Rohtranskription verloren gehen würden.

Beachten Sie in der Testphase des Projekts, dass das Kerning (der Abstand zwischen den Buchstaben in einem Wort) erweitert wurde, um eine langwierige Aussprache widerzuspiegeln.

Beachten Sie in der Testphase des Projekts, dass das Kerning (der Abstand zwischen den Buchstaben in einem Wort) erweitert wurde, um eine langwierige Aussprache widerzuspiegeln.

Die Autoren machen deutlich, dass ihre Arbeit nicht dazu gedacht ist, direkt zur Emotionserkennungs- und Affekterkennungsforschung beizutragen, sondern stattdessen versucht, die Merkmale der Sprache zu klassifizieren und sie mit einer einfachen und begrenzten Auswahl neuartiger visueller Konventionen darzustellen.

Zumindest werden durch die zusätzliche Betonung, die das System bietet, Sätze eindeutig gemacht, bei denen der Handlungsgegenstand für Zuschauer, die den Ton nicht hören können (entweder aufgrund einer Behinderung oder der Umstände der Wiedergabe, wie z. B. laute Umgebungen), möglicherweise nicht klar ist.

Um mein eigenes Beispiel aus dem Jahr 2017 auszuleihen, das einen Blick darauf wirft, wie maschinelle Lernsysteme dies können habe auch Schwierigkeiten Wenn man versteht, wo das Objekt und die Handlung in einem Satz liegen, kann man leicht erkennen, inwieweit die Betonung die Bedeutung selbst eines einfachen Satzes radikal verändern kann:

I habe das nicht gestohlen. (Jemand anderes hat es gestohlen)
I nicht das stehlen (ich weise die Behauptung zurück, dass ich es gestohlen habe)
Ich tat es nicht stehlen Das. (Ich besitze es, Diebstahl gilt nicht)
Ich habe nicht gestohlen zur Verbesserung der Gesundheitsgerechtigkeit. (Aber ich habe etwas anderes gestohlen)

Möglicherweise könnte ein mechanistischer Prosodie>Typografie-Workflow, wie er von den brasilianischen Autoren vorgeschlagen wird, auch als Ergänzung bei der Entwicklung von Datensätzen für die Affekt-Computing-Forschung nützlich sein, da er die Verarbeitung rein textbasierter Daten erleichtert, die dennoch einige vorab abgeleitete paralinguistische Elemente enthalten Maße.

Darüber hinaus stellen die Forscher fest, dass die zusätzliche sprachliche Nutzlast prosodiebewusster Texte bei einer Reihe von NLP-basierten Aufgaben nützlich sein könnte, einschließlich der Bewertung der Kundenzufriedenheit und für die Schlussfolgerung von Depressionen aus Textinhalten.

Elastische Typografie

Der von den Forschern entwickelte Rahmen bietet Variationen in der Grundlinienverschiebung, wobei ein Buchstabe im Verhältnis zur „Grundlinie“, auf der der Satz ruht, höher oder niedriger sein kann; Kerning, wobei der Abstand zwischen den Buchstaben eines Wortes verkürzt oder erweitert werden kann; und Schriftstärke (Fettigkeit).

Diese drei Stile entsprechen den extrahierten Merkmalen der Sprache, auf die sich das Projekt beschränkt hat: Tonhöhe, Dauer und Größenordnung.

Der Fortschritt des Stils eines Satzes. In Nr. 1 sehen wir die Silbengrenzen, die im Extraktionsprozess definiert wurden. In #2 sehen wir eine Darstellung jeder der drei Modulationen (Größe|Gewicht, Kerning|Dauer und Tonhöhe|Grundlinienverschiebung), einzeln angewendet. In #3 sehen wir die kombinierten typografischen Modulationen in der Endausgabe, wie sie den 117 Teilnehmern in einem Test des Systems präsentiert wurden.

Der Fortschritt des Stils eines Satzes. In Nr. 1 sehen wir die Silbengrenzen, die im Extraktionsprozess definiert wurden. In #2 sehen wir eine Darstellung jeder der drei Modulationen (Größe|Gewicht, Kerning|Dauer und Tonhöhe|Grundlinienverschiebung), einzeln angewendet. In #3 sehen wir die kombinierten typografischen Modulationen in der Endausgabe, wie sie den 117 Teilnehmern in einem Test des Systems präsentiert wurden.

Da eine einzelne Schriftart möglicherweise eine zusätzliche und separate Schriftart für Variationen wie Fett und Kursiv erfordert, verwendeten die Forscher Google Implementierung der OpenType-Schriftart Inter, die einen granularen Bereich von Strichstärken in einer einzigen Schriftart integriert.

Aus dem Papier ein Diagramm, das detailliert beschreibt, inwieweit ein OpenType-Glyph aus der Inter-Schriftart eine Reihe fetter Hervorhebungen entlang des Skeletts des minimalen Basis-Splines ausdrücken kann.

Aus dem Papier ein Diagramm, das detailliert beschreibt, inwieweit ein OpenType-Glyph aus der Inter-Schriftart eine Reihe fetter Hervorhebungen entlang des Skeletts des minimalen Basis-Splines ausdrücken kann.

Testen

Der Ausdruck Kerning und Grundlinienverschiebung wurde in ein Browser-Plugin integriert, das die Durchführung von Tests an 117 hörbehinderten Teilnehmern ermöglichte.

Der Datensatz für die Tests wurde speziell für das Projekt erstellt, indem ein Schauspieler engagiert wurde, der eine Auswahl von Gedichten mehrmals mit unterschiedlicher Betonung jeder Einstellung vorlas, entsprechend den drei Merkmalen, die das Projekt untersucht. Die Wahl fiel auf die Poesie, weil sie eine Reihe von Schwerpunkten zulässt (sogar über die Absicht des Dichters hinaus), ohne künstlich zu klingen.

Die Teilnehmer wurden in zwei Gruppen aufgeteilt. Die ersten erhielten 15 Runden, in denen der Schauspieler eine Strophe vorlas, begleitet von synchronisiertem, animiertem und moduliertem Text, der sich im Takt des Audioclips entfaltete.

Die zweite Gruppe erhielt genau die gleichen Aufgaben, erhielt jedoch statische Bilder des modulierten Textes, die sich während der Wiedergabe der Lesungen des Schauspielers überhaupt nicht veränderten.

Die durchschnittliche Rate richtiger Antworten betrug nicht zufällige 67 % für die statische Bildgruppe und 63 % für die animierte Textgruppe. Die von den Forschern nach den Versuchen eingeholten Teilnehmerkommentare bestätigten ihre Theorie, dass die kognitive Belastung durch die dynamische Interpretation möglicherweise zu den niedrigeren Ergebnissen bei den nichtstatischen Tests beigetragen hat. Allerdings stellt die Art von Untertitel- und Nachrichtensystemen, für die ein solches Framework gedacht ist, in der Regel standardmäßig pro abgeschlossenen Text bereit.

In den Kommentaren der Teilnehmer wurde auch darauf hingewiesen, dass der Verwendung von Kerning zur Angabe der Dauer strenge Grenzen gesetzt sind. Ein Kommentator bemerkte, dass es schwierig werde, ein Wort zu unterscheiden, wenn die Buchstaben zu weit voneinander entfernt seien.

Die Forscher stellen außerdem fest:

„[Einige] Teilnehmer waren der Meinung, dass das Modell in der Lage sein sollte, differenziertere und komplexere Sprachdarstellungen zu verkörpern, was mit einem vielfältigeren und ausdrucksstärkeren visuellen Vokabular möglich sein sollte.“ Obwohl dies keine einfache Aufgabe ist, ist es dennoch ermutigend, sich vorzustellen, wie sich verschiedene Anwendungen der sprachmodulierten Typografie im Zuge der Entwicklung dieses neuen Feldes verzweigen könnten.“

 

 

Erstveröffentlichung am 24. Februar 2022.