Connect with us

Künstliche Intelligenz

Vereinigung von Sprach- und Gestensynthese

mm

Als ich nach einigen Jahren in Süditalien nach Großbritannien zurückkehrte, dauerte es eine Weile, bis ich aufhörte, während des Sprechens zu gestikulieren. In Großbritannien macht es Sie nur über-kafeiniert aus, wenn Sie Ihre Sprache mit kräftigen Handbewegungen unterstützen; in Italien half es mir als jemandem, der die Sprache lernte, tatsächlich verstanden zu werden. Selbst jetzt, auf den selteneren Gelegenheiten, wenn ich Italienisch spreche, kommen die “wilden Hände” wieder zum Einsatz. Es ist fast unmöglich, Italienisch zu sprechen, ohne sich zu bewegen.

In den letzten Jahren ist die gestenunterstützte Kommunikation in italienischer und jüdischer Kultur in das öffentliche Bewusstsein gerückt und ist mehr als nur ein Klischee aus den Werken von Martin Scorsese und den frühen Filmen von Woody Allen. 2013 hat die New York Times eine kurze Videogeschichte italienischer Handgesten zusammengestellt; die Wissenschaft beginnt, rassische Neigungen zum Handgestikulieren zu studieren, anstatt das Thema als Stereotyp abzutun; und neue Emojis vom Unicode-Konsortium schließen die Gestenlücke, die mit rein digitaler, textbasierter Kommunikation einhergeht.

Ein einheitlicher Ansatz für Sprache und Gestik

Jetzt sucht neue Forschung am Department of Speech, Music and Hearing des KTH Royal Institute of Technology in Schweden, Sprache und Gestenerkennung in ein einheitliches, multimodales System zu kombinieren, das unser Verständnis von sprachbasierter Kommunikation durch die Verwendung von Körpersprache als integrierte Ergänzung zur Sprache und nicht als paralleles Forschungsgebiet potenziell erhöhen könnte.

Visuals von der Testseite des schwedischen Sprach-/Gestenprojekts. Quelle: https://swatsw.github.io/isg_icmi21/

Visuals von der Testseite des schwedischen Sprach-/Gestenprojekts. Quelle: https://swatsw.github.io/isg_icmi21/

Die Forschung schlägt ein neues Modell vor, das als Integrated Speech and Gesture (ISG)-Synthese bezeichnet wird und eine Reihe von State-of-the-Art-Neural-Modellen aus der Sprach- und Gestenforschung zusammenführt.

Der neue Ansatz verlässt das lineare Pipeline-Modell (bei dem Gesteninformationen sequentiell aus der Sprache als sekundäre Verarbeitungsstufe abgeleitet werden) und bevorzugt einen integrierteren Ansatz, der nach Meinung der Endbenutzer gleichwertig mit bestehenden Systemen ist und der eine schnellere Synthesezeit und eine geringere Parameterzahl erreicht.

Lineare vs. integrierte Ansätze. Quelle: https://arxiv.org/pdf/2108.11436.pdf

Lineare vs. integrierte Ansätze. Quelle: https://arxiv.org/pdf/2108.11436.pdf

Das neue multimodale System umfasst einen spontanen Text-to-Speech-Synthesizer und einen audio-sprachgesteuerten Gestengenerator, die beide auf dem bestehenden Trinity Speech Gesture Dataset trainiert wurden. Das Dataset enthält 244 Minuten Audio- und Körpermitschnitt von einem Mann, der auf verschiedene Themen spricht und frei gestikuliert.

Die Arbeit ist eine neuartige und tangentielle Äquivalent zum DurIAN-Projekt, das Gesichtsausdrücke und Sprache und nicht Gesten und Sprache generiert und das mehr in den Bereich der Ausdruckserkennung und -synthese fällt.

Architekturen

Die sprachlichen und visuellen (Gesten-)Komponenten des Projekts sind in Bezug auf Daten unbalanciert; Text ist spärlich und Gestikulation ist reich und datenintensiv – eine Herausforderung bei der Definition von Zielen und Metriken. Daher bewerteten die Forscher das System hauptsächlich durch die menschliche Reaktion auf die Ausgabe und nicht durch mechanistischere Ansätze wie den mittleren quadratischen Fehler (MSE).

Die beiden Haupt-ISG-Modelle wurden um die zweite Iteration des 2017er Tacotron-Ende-zu-Ende-Sprachsynthese-Projekts von Google und die südkoreanische Glow-TTS-Initiative entwickelt, die 2020 veröffentlicht wurde. Tacotron nutzt eine autoregressive LSTM-Architektur, während Glow-TTS parallel über Convolution-Operatoren agiert, mit schnellerer GPU-Leistung und ohne die Stabilitätsprobleme, die autoregressive Modelle aufweisen können.

Die Forscher testeten während des Projekts drei effektive Sprach-/Gesten-Systeme: eine modifizierte Version eines multimodalen Sprach- und Gestengenerierungs- veröffentlichten 2021 von einigen der gleichen Forscher des neuen Projekts; eine spezielle und modifizierte ISG-Version des Open-Source-Tacotron 2; und eine stark veränderte ISG-Version von Glow-TTS.

Um die Systeme zu bewerten, erstellten die Forscher eine webbasierte Feedback-Umgebung mit artikulierten 3D-Personen, die zu vordefinierten Textsegmenten sprechen und sich bewegen (das allgemeine Aussehen der Umgebung kann auf der öffentlichen Projektseite gesehen werden).

Die Testumgebung.

Die Testumgebung.

Testpersonen wurden gebeten, die Systemleistung auf der Grundlage von Sprache und Gestik, nur Sprache und nur Gestik zu bewerten. Die Ergebnisse zeigten eine leichte Verbesserung der neuen ISG-Version gegenüber der älteren Pipeline-Version, obwohl das neuere System schneller und mit reduzierten Ressourcen arbeitet.

Wenn gefragt wird 'Wie menschlich ist die Geste?', beendet das vollständig integrierte ISG-Modell leicht vor dem langsameren Pipeline-Modell, mit den Tacotron- und Glow-basierten Modellen weiter hinten.

Wenn gefragt wird ‘Wie menschlich ist die Geste?’, beendet das vollständig integrierte ISG-Modell leicht vor dem langsameren Pipeline-Modell, mit den Tacotron- und Glow-basierten Modellen weiter hinten.

Einbetten von Schulterzucken

Das Tacotron2-ISG-Modell, der erfolgreichste der drei Ansätze, zeigt ein Maß an “subliminalem” Lernen im Zusammenhang mit einigen der häufigsten Phrasen im Dataset, wie “Ich weiß nicht” – trotz fehlender expliziter Daten, die es dazu veranlassen würden, ein Schulterzucken zu generieren, um diese Phrase zu begleiten, stellten die Forscher fest, dass der Generator tatsächlich zuckt.

Die Forscher weisen darauf hin, dass die sehr spezifische Natur dieses neuartigen Projekts unweigerlich eine Knappheit an allgemeinen Ressourcen bedeutet, wie z. B. dedizierten Datensätzen, die Sprache und Gesten auf eine Weise enthalten, die für die Ausbildung eines solchen Systems geeignet ist. Trotzdem und trotz der Vorreiterrolle der Forschung betrachten sie es als vielversprechenden und wenig erforschten Weg in der Sprach-, Linguistik- und Gestenerkennung.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.