Künstliche Intelligenz

Wie KI die Gebärdensprachenerkennung präziser denn je macht

Veröffentlicht December 23, 2024

Alex McFarland

Bader Alsharif, Erstautor und Doktorand (FAU)

Wenn wir darüber nachdenken, Kommunikationsbarrieren abzubauen, konzentrieren wir uns oft auf Sprachübersetzungs-Apps oder Sprachassistenten. Aber für Millionen von Menschen, die Gebärdensprache verwenden, haben diese Tools die Lücke nicht wirklich geschlossen. Gebärdensprache besteht nicht nur aus Handbewegungen – es ist eine reichhaltige, komplexe Form der Kommunikation, die Gesichtsausdrücke und Körpersprache umfasst, wobei jedes Element eine entscheidende Bedeutung hat.

Das macht dies besonders schwierig: Im Gegensatz zu gesprochenen Sprachen, die sich hauptsächlich in Wortschatz und Grammatik unterscheiden, unterscheiden sich Gebärdensprachen auf der ganzen Welt grundlegend in der Art und Weise, wie sie Bedeutung vermitteln. Die amerikanische Gebärdensprache (ASL) beispielsweise hat ihre eigene, einzigartige Grammatik und Syntax, die nicht mit dem gesprochenen Englisch übereinstimmt.

Diese Komplexität bedeutet, dass die Entwicklung einer Technologie zur Erkennung und Übersetzung von Gebärdensprache in Echtzeit das Verständnis eines gesamten, in Bewegung befindlichen Sprachsystems erfordert.

Ein neuer Ansatz zur Anerkennung

Hier entschied sich ein Team des College of Engineering and Computer Science der Florida Atlantic University (FAU) für einen neuen Ansatz. Anstatt zu versuchen, die gesamte Komplexität der Gebärdensprache auf einmal zu bewältigen, konzentrierten sie sich darauf, einen entscheidenden ersten Schritt zu meistern: die Erkennung von Gesten des ASL-Alphabets mit beispielloser Genauigkeit durch KI.

Man kann es sich so vorstellen, als würde man einem Computer das Lesen von Handschriften beibringen, allerdings in drei Dimensionen und in Bewegung. Das Team hat etwas Bemerkenswertes erstellt: einen Datensatz aus 29,820 statischen Bildern, die ASL-Handgesten zeigen. Aber sie haben nicht einfach nur Bilder gesammelt. Sie haben jedes Bild mit 21 Schlüsselpunkten auf der Hand markiert und so eine detaillierte Karte erstellt, die zeigt, wie sich Hände bewegen und verschiedene Zeichen bilden.

Dr. Bader Alsharif, der diese Forschung als Doktorand leitete, erklärt: „Diese Methode wurde in früheren Studien noch nicht untersucht, was sie zu einer neuen und vielversprechenden Richtung für zukünftige Fortschritte macht.“

Die Technologie aufschlüsseln

Lassen Sie uns einen Blick auf die Kombination von Technologien werfen, die dieses Gebärdenspracherkennungssystem zum Funktionieren bringt.

MediaPipe und YOLOv8

Die Magie entsteht durch die nahtlose Integration zweier leistungsstarker Tools: MediaPipe und YOLOv8. Stellen Sie sich MediaPipe als einen erfahrenen Handbeobachter vor – einen erfahrenen Gebärdendolmetscher, der jede noch so kleine Fingerbewegung und Handposition verfolgen kann. Das Forschungsteam hat sich speziell aufgrund der außergewöhnlichen Fähigkeit von MediaPipe für eine genaue Verfolgung von Handmarkierungen entschieden, indem es, wie oben erwähnt, 21 präzise Punkte an jeder Hand identifiziert.

Aber das Verfolgen allein reicht nicht – wir müssen verstehen, was diese Bewegungen bedeuten. Und hier kommt YOLOv8 ins Spiel. YOLOv8 ist ein Experte für Mustererkennung, der alle verfolgten Punkte aufnimmt und herausfindet, welchen Buchstaben oder welche Geste sie darstellen. Die Forschung zeigt, dass YOLOv8 bei der Verarbeitung eines Bildes dieses in ein S × S-Raster unterteilt, wobei jede Rasterzelle für die Erkennung von Objekten (in diesem Fall Handgesten) innerhalb ihrer Grenzen verantwortlich ist.

Alsharif et al., Franklin Open (2024)

Wie das System tatsächlich funktioniert

Der Vorgang ist komplexer, als es auf den ersten Blick scheinen mag.

Folgendes passiert hinter den Kulissen:

Handerkennungsphase

Wenn Sie ein Zeichen machen, identifiziert MediaPipe zunächst Ihre Hand im Rahmen und bildet diese 21 Schlüsselpunkte ab. Dies sind nicht nur zufällige Punkte – sie entsprechen bestimmten Gelenken und Orientierungspunkten an Ihrer Hand, von den Fingerspitzen bis zur Handfläche.

Räumliche Analyse

YOLOv8 nimmt diese Informationen und analysiert sie in Echtzeit. Für jede Gitterzelle im Bild sagt es Folgendes voraus:

Die Wahrscheinlichkeit, dass eine Handbewegung vorhanden ist
Die genauen Koordinaten des Standorts der Geste
Der Vertrauenswert seiner Vorhersage

Klassifikation

Das System verwendet etwas, das als „Bounding-Box-Vorhersage“ bezeichnet wird. Stellen Sie sich vor, Sie zeichnen ein perfektes Rechteck um Ihre Handbewegung. YOLOv8 berechnet für jede Box fünf wichtige Werte: x- und y-Koordinaten für die Mitte, Breite, Höhe und einen Konfidenzwert.

Alsharif et al., Franklin Open (2024)

Warum diese Kombination so gut funktioniert

Das Forschungsteam entdeckte, dass durch die Kombination dieser Technologien mehr entstand als die Summe seiner Teile. Das präzise Tracking von MediaPipe in Kombination mit der fortschrittlichen Objekterkennung von YOLOv8 lieferte bemerkenswert genaue Ergebnisse – wir sprechen von einer Präzisionsrate von 98 % und einem F99-Score von 1 %.

Besonders beeindruckend ist, wie das System mit der Komplexität der Gebärdensprache umgeht. Manche Zeichen mögen für ungeübte Augen sehr ähnlich aussehen, aber das System kann subtile Unterschiede erkennen.

Rekordverdächtige Ergebnisse

Wenn Forscher eine neue Technologie entwickeln, lautet die große Frage immer: „Wie gut funktioniert sie tatsächlich?“ Bei diesem System zur Gebärdensprachenerkennung sind die Ergebnisse beeindruckend.

Das Team der FAU hat sein System strengen Tests unterzogen und dabei Folgendes herausgefunden:

Das System erkennt Schilder in 98 % der Fälle richtig
Es erfasst 98 % aller davor gemachten Zeichen
Der Gesamtleistungswert erreicht beeindruckende 99 %

„Die Ergebnisse unserer Forschung zeigen, dass unser Modell Gesten der amerikanischen Gebärdensprache mit sehr wenigen Fehlern genau erkennen und klassifizieren kann“, erklärt Alsharif.

Das System funktioniert in Alltagssituationen gut – bei unterschiedlicher Beleuchtung, verschiedenen Handpositionen und sogar mit den Gebärden verschiedener Personen.

Dieser Durchbruch erweitert die Grenzen des Möglichen in der Gebärdenspracherkennung. Bisherige Systeme hatten mit der Genauigkeit zu kämpfen, doch durch die Kombination der Handverfolgung von MediaPipe mit den Erkennungsfunktionen von YOLOv8 hat das Forschungsteam etwas Besonderes geschaffen.

„Der Erfolg dieses Modells ist größtenteils auf die sorgfältige Integration von Transferlernen, die sorgfältige Erstellung von Datensätzen und die präzise Feinabstimmung zurückzuführen“, sagt Mohammad Ilyas, einer der Co-Autoren der Studie. Diese Liebe zum Detail zahlte sich in der bemerkenswerten Leistung des Systems aus.

Was das für die Kommunikation bedeutet

Der Erfolg dieses Systems eröffnet spannende Möglichkeiten, die Kommunikation zugänglicher und integrativer zu gestalten.

Das Team beschränkt sich nicht nur auf die Buchstabenerkennung. Die nächste große Herausforderung besteht darin, dem System ein noch breiteres Spektrum an Handformen und Gesten beizubringen. Denken Sie nur an die Momente, in denen Zeichen fast identisch aussehen – wie die Buchstaben „M“ und „N“ in der Gebärdensprache. Die Forscher arbeiten daran, ihr System dabei zu unterstützen, diese subtilen Unterschiede noch besser zu erfassen. Dr. Alsharif drückt es so aus: „Die Ergebnisse dieser Studie unterstreichen nicht nur die Robustheit des Systems, sondern auch sein Potenzial für praktische Echtzeitanwendungen.“

Das Team konzentriert sich derzeit auf:

So sorgen Sie dafür, dass das System auf herkömmlichen Geräten reibungslos funktioniert
Schnell genug für Gespräche in der realen Welt
Gewährleisten Sie einen zuverlässigen Betrieb in jeder Umgebung

Dekanin Stella Batalama vom College of Engineering and Computer Science der FAU teilt die größere Vision: „Durch die Verbesserung der Erkennung der amerikanischen Gebärdensprache trägt diese Arbeit zur Entwicklung von Tools bei, die die Kommunikation für Gehörlose und Schwerhörige verbessern können.“

Stellen Sie sich vor, Sie betreten eine Arztpraxis oder besuchen einen Kurs, in dem diese Technologie Kommunikationsbarrieren sofort überbrückt. Das ist das eigentliche Ziel: den täglichen Umgang für alle Beteiligten reibungsloser und natürlicher zu gestalten. Es geht um die Entwicklung von Technologie, die Menschen tatsächlich dabei unterstützt, miteinander in Kontakt zu treten. Ob im Bildungswesen, im Gesundheitswesen oder in alltäglichen Gesprächen – dieses System stellt einen Schritt in eine Welt dar, in der Kommunikationsbarrieren immer kleiner werden.

Verwandte Themen:Sprache Nlp

Alex McFarland

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.