Andersons Blickwinkel

Emotionen durch Typografie mit KI ausdrücken

Veröffentlicht am 24. Februar 2022

Aktualisiert am 24. Mai 2026

Von

Martin Anderson

Aktuelle Trends und Innovationen in der Textkommunikation (einschließlich E-Mail, Messaging und Untertitelungssystemen) müssen den affektiven Abgrund zwischen geschriebenem und gesprochenem Sprechen auf grobe und approximative Weise verhandeln.

So haben die letzten Jahre beispielsweise wechselnde Groß- und Kleinschreibung als provokatives Meme in sozialen Medien-Flamewars populär gemacht, während die verhasste Verwendung von Großschreibung (sowie fett und auffälligen typografischen Effekten, die einige Kommentarplattformen ermöglichen) weiterhin die Intervention von Moderatoren provoziert. Diese sind monoton und nur grob repräsentativ für die Klärung der Absicht des geschriebenen Wortes.

Gleichzeitig hat das Wachstum der Popularität von Emoticons und Emojis als hybride textuelle/visuelle Sentiment-Übermittler die Naturale-Sprachverarbeitung (NLP)-Forschung in den letzten Jahren aktiv eingebunden, zusammen mit Interesse an der Bedeutung von animierten GIFs, die Benutzer in Kommentarthreads posten.

Im Laufe der Zeit hat die geschriebene Sprache einen innovativen Fonds dieser “additiven” linguistischen Methoden entwickelt, die entweder versuchen, Emotionen zu proxy oder in Abwesenheit der tonalen Informationen im gesprochenen Wort zu erzeugen.

Normalerweise müssen wir die Emotion jedoch so gut wie möglich aus dem Kontext des geschriebenen Wortes rendern. Betrachten Sie beispielsweise die Ausruf ‘Oh, Oh, Oh!’ am Ende von Lady Macbeths verrückter nächtlicher Soliloquie, ein Fallstudie über den Umfang, in dem Intonation die Bedeutung beeinflussen kann.

In den meisten Adaptionen dauert diese schmerzhafte Klage 2-6 Sekunden; in Trevor Nunns 1976er Royal Shakespeare Company-Produktion von Macbeth nahm Judi Dench die Lesung dieser Zeile auf ein vielleicht unübertroffenes Rekord von 24,45 Sekunden, in einer bahnbrechenden Interpretation der Rolle.

(YouTube’s eigene Auto-Untertitelung für diesen Clip beschreibt Denchs Ululation als [MUSIK])

Prosodie in Typografie übersetzen

Ein kürzlich veröffentlichtes Papier aus Brasilien schlägt ein System der sprechmodulierten Typografie vor, das möglicherweise solche Prosodie und andere paralinguistische Komponenten direkt in untertitelte Sprache einbeziehen könnte, was eine Dimension der Emotion hinzufügen würde, die von der Vorsilbe von Adjektiven wie [Schreien] oder anderen “flachen” Tricks, die der geschlossenen Untertitelungskonvention zur Verfügung stehen, schlecht erfasst wird.

‘Wir schlagen ein neues Modell der sprechmodulierten Typografie vor, bei dem akustische Merkmale aus der Sprache verwendet werden, um das visuelle Erscheinungsbild des Textes zu modulieren. Dies könnte es ermöglichen, dass die Transkription einer bestimmten Äußerung nicht nur die gesagten Wörter darstellt, sondern auch, wie sie gesagt wurden.

‘Mit diesem Ziel hoffen wir, typografische Parameter zu entdecken, die allgemein als visuelle Stellvertreter für die prosodischen Merkmale von Amplitude, Tonhöhe und Dauer anerkannt werden können.’

Der Arbeitsablauf, der Prosodie in typografische Stilistik übersetzt. Um das vielseitigste und am weitesten verbreitete System zu produzieren, beschränkten sich die Autoren auf Baseline-Shift, Kerning und Fettigkeit, wobei letztere durch die Vielseitigkeit einer Open-Type-Schrift bereitgestellt wird. Quelle: https://arxiv.org/pdf/2202.10631.pdf

Das Papier trägt den Titel Versteckte Schreie, Flüstern und Jaulen: kann Text mehr als nur seine Wörter klingen lassen? und stammt von Calua de Lacerda Pataca und Paula Dornhofer Paro Costa, zwei Forschern an der Universidade Estadual de Campinas in Brasilien.

Fette Wörter

Obwohl das breitere Ziel des Projekts darin besteht, Systeme zu entwickeln, die Prosodie und andere parametrige Sprachmerkmale in Untertitelungen übermitteln können, glauben die Autoren auch, dass ein System dieser Art möglicherweise auch eine breitere Zielgruppe in der hörenden Welt entwickeln könnte.

Es gibt viele vorherige Initiativen in diesem Bereich, einschließlich eines 1983-Projekts, das ein Untertitelungssystem vorschlug, das ‘Spezialeffekte, Farbe und Großbuchstaben [um] die reiche tonale Information zu repräsentieren, die gehörlosen Kindern verwehrt wird[.]’ enthalten könnte.

Im Gegensatz dazu kann das brasilianische Projekt die Vorteile sowohl der automatischen Transkription als auch neuer Entwicklungen in der Affekterkennung nutzen, die es ermöglichen, einen Arbeitsablauf zu erstellen, der die Komponenten in einem Sprachsoundtrack importieren und charakterisieren kann.

Nachdem die prosodischen Merkmale extrahiert und verarbeitet wurden, werden sie den Zeitstempeln der Wörter in der Sprache zugeordnet, was Tokens erzeugt, die zur anwendungsbezogenen Modulation der Untertitel-Typografie verwendet werden können (siehe Bild oben).

Dieses Ergebnis kann die visuelle Repräsentation des Ausmaßes darstellen, in dem eine bestimmte Silbe möglicherweise verlängert, geflüstert, betont oder anderweitig kontextuelle Informationen enthalten kann, die in einer rohen Transkription verloren gehen würden.

Aus der Testphase des Projekts, beachten Sie, wie das Kerning (der Abstand zwischen den Buchstaben in einem Wort) verbreitert wurde, um eine verlängerte Aussprache widerzuspiegeln.

Die Autoren machen deutlich, dass ihre Arbeit nicht direkt zur Emotions- und Affekterkennungsforschung beitragen soll, sondern vielmehr die Merkmale der Sprache klassifizieren und mit einer einfachen und begrenzten Reihe neuer visueller Konventionen darstellen möchte.

Mindestens bietet das zusätzliche Gewicht, das das System bietet, Sätze auf, bei denen das Objekt der Aktion möglicherweise nicht klar für Zuschauer ist, die den Klang nicht hören können (entweder aufgrund einer Behinderung oder der Umstände der Wiedergabe, wie z.B. laute Umgebungen).

Um mein eigenes Beispiel von 2017 zu zitieren, das sich mit der Art und Weise befasste, wie maschinelle Lernsysteme auch Schwierigkeiten haben können, zu verstehen, wo das Objekt und die Aktion in einem Satz liegen, ist es leicht zu erkennen, in welchem Ausmaß Betonung die Bedeutung sogar eines einfachen Satzes radikal ändern kann:

Ich habe das nicht gestohlen. (Jemand anderes hat es gestohlen)
Ich habe nicht das gestohlen, (Ich negiere die Behauptung, dass ich es gestohlen habe)
Ich habe nicht das gestohlen. (Ich besitze es, Diebstahl gilt nicht)
Ich habe das nicht gestohlen. (Aber ich habe etwas anderes gestohlen)

Potenziell könnte ein mechanistischer Prosodie-Typografie-Workflow wie der, den die brasilianischen Autoren vorschlagen, auch als Hilfsmittel bei der Entwicklung von Datensätzen für Affektforschung nützlich sein, da er die Verarbeitung rein textbasierter Daten ermöglicht, die dennoch einige vorabgeleitete paralinguistische Dimensionen enthalten.

Darüber hinaus bemerken die Forscher, dass die zusätzliche sprachliche Nutzlast der prosodiebewussten Texte in einer Reihe von NLP-basierten Aufgaben nützlich sein könnte, einschließlich der Bewertung der Kundenzufriedenheit und der Inferenz von Depressionen aus Textinhalten.

Elastische Typografie

Das von den Forschern entwickelte Framework bietet Variationen in der Baseline-Shift, bei der ein Buchstabe höher oder niedriger relativ zur “Baseline” sein kann, auf der der Satz ruht; Kerning, bei dem der Abstand zwischen den Buchstaben eines Wortes kontrahiert oder erweitert werden kann; und Schriftgewicht (Fettigkeit).

Diese drei Stile werden den extrahierten Merkmalen der Sprache zugeordnet, auf die sich das Projekt beschränkt hat: jeweils Tonhöhe, Dauer und Größe.

Der Ablauf der Stilistik in einem Satz. In #1 sehen wir die Silbengrenzen, die im Extraktionsprozess definiert wurden. In #2 sehen wir eine Darstellung jeder der drei Modulationen (Größe|Gewicht, Kerning|Dauer und Tonhöhe|Baseline-Shift), die einzeln angewendet werden. In #3 sehen wir die kombinierten typografischen Modulationen in der endgültigen Ausgabe, wie sie 117 Teilnehmern in einem Test des Systems präsentiert wurden.

Da eine einzelne Schriftart möglicherweise eine separate Schrift für Variationen wie fett und kursiv erfordert, verwendeten die Forscher eine Google-Implementierung der OpenType-Schrift Inter, die eine granulare Reihe von Gewichten in einer einzigen Schrift integriert.

Aus dem Papier, eine Tabelle, die den Umfang darstellt, in dem ein OpenType-Glyph aus der Inter-Schrift eine Reihe von fetten Betonungen entlang des Skeletts der minimalen Basis-Spline ausdrücken kann.

Testen

Die Darstellung von Kerning und Baseline-Shift wurde in ein Browser-Plugin integriert, das Tests mit 117 hörenden Teilnehmern ermöglichte.

Der Datensatz für die Tests wurde speziell für das Projekt erstellt, indem ein Schauspieler engagiert wurde, der eine Auswahl von Gedichten mehrmals mit unterschiedlichem Nachdruck las, entsprechend den drei Merkmalen, die das Projekt untersucht. Poesie wurde gewählt, weil sie eine Reihe von Betonungen ermöglicht (auch jenseits der Absicht des Dichters), ohne künstlich zu klingen.

Die Teilnehmer wurden in zwei Gruppen aufgeteilt. Die erste Gruppe erhielt 15 Runden des Schauspielers, der ein Gedicht las, begleitet von synchronisierten, animierten und modulierten Texten, die sich im Laufe der Zeit mit dem Audio-Clip entfalteten.

Die zweite Gruppe erhielt genau die gleiche Reihe von Aufgaben, aber wurde mit statischen Bildern des modulierten Textes präsentiert, die während der Wiedergabe des Schauspielers nicht geändert wurden.

Die durchschnittliche Rate der korrekten Antworten lag bei 67% für die Gruppe mit statischen Bildern und 63% für die Gruppe mit animiertem Text. Die Kommentare der Teilnehmer, die von den Forschern nach den Tests eingeholt wurden, bestätigten ihre Theorie, dass die kognitive Belastung der dynamischen Interpretation möglicherweise zu den niedrigeren Punktzahlen für die nicht-statischen Tests beigetragen hat. Allerdings bietet die Art von Untertitelung und Nachrichtensystemen, für die ein solches Framework gedacht ist, in der Regel per abgeschlossenen Text standardmäßig.

Die Kommentare der Teilnehmer wiesen auch darauf hin, dass es harte Grenzen für die Verwendung von Kerning zur Angabe der Dauer gibt, da ein Kommentator bemerkte, dass, wenn die Buchstaben zu weit auseinander platziert sind, es schwierig wird, ein Wort zu individuieren.

Die Forscher bemerken auch:

‘[Einige] Teilnehmer fühlten, dass das Modell in der Lage sein sollte, nuanciertere und komplexere Darstellungen von Sprache zu verkörpern, was es mit einer vielfältigeren und ausdrucksstärkeren visuellen Vokabular tun sollte. Obwohl dies keine einfache Aufgabe ist, ist es dennoch ermutigend, sich vorzustellen, wie unterschiedliche Anwendungen der sprechmodulierten Typografie sich als dieses neue Feld entwickelt.’

Erstveröffentlicht am 24. Februar 2022.

Martin Anderson

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.

Unite.AI

Emotionen durch Typografie mit KI ausdrücken

Prosodie in Typografie übersetzen

Fette Wörter

Elastische Typografie

Testen

Mehr entdecken