Künstliche Intelligenz

KI-Kopfhörer ermöglichen es Ihnen, in einer Menschenmenge auf eine Person zu hören

mm

In einer überfüllten, lauten Umgebung haben Sie sich vielleicht schon einmal gewünscht, dass Sie alle Hintergrundgeräusche ausblenden und sich ausschließlich auf die Person konzentrieren könnten, die Sie hören möchten? Während Noise-Cancelling-Kopfhörer große Fortschritte bei der Schaffung einer auditiven Tabula rasa gemacht haben, haben sie immer noch Schwierigkeiten, bestimmte Geräusche aus der Umgebung des Trägers zu filtern. Aber was, wenn Ihre Kopfhörer darauf trainiert werden könnten, die Stimme einer einzigen Person aufzunehmen und zu verstärken, auch wenn Sie sich in einem Raum mit anderen Gesprächen bewegen?

Target Speech Hearing (TSH), ein bahnbrechendes KI-System, das von Forschern an der University of Washington entwickelt wurde, macht Fortschritte in diesem Bereich.

Wie Target Speech Hearing funktioniert

Um TSH zu verwenden, muss eine Person, die speziell ausgestattete Kopfhörer trägt, einfach für einige Sekunden auf die Person schauen, die sie hören möchte. Diese kurze “Anmeldephase” ermöglicht es dem KI-System, die einzigartigen Stimmmerkmale des Ziel­sprechers zu erlernen und zu erfassen.

Hier ist, wie es unter der Haube funktioniert:

  1. Der Benutzer tippt auf eine Taste, während er seinen Kopf für 3-5 Sekunden in Richtung des gewünschten Sprechers hält.
  2. Mikrofone auf beiden Seiten des Headsets nehmen die Schallwellen von der Stimme des Sprechers gleichzeitig auf (mit einem Fehler von 16 Grad).
  3. Die Kopfhörer übertragen dieses Audiosignal an einen eingebauten Computer.
  4. Die Machine-Learning-Software analysiert die Stimme und erstellt ein Modell der einzigartigen Stimmmerkmale des Sprechers.
  5. Das KI-System verwendet dieses Modell, um die Stimme des angemeldeten Sprechers in Echtzeit zu isolieren und zu verstärken, auch wenn der Benutzer sich in einer lauten Umgebung bewegt.

Je länger der Ziel­sprecher spricht, desto mehr Trainingsdaten erhält das System, was es ermöglicht, sich besser auf die gewünschte Stimme zu konzentrieren und zu klären. Dieser innovative Ansatz für “selektives Hören” eröffnet eine Welt von Möglichkeiten für verbesserte Kommunikation und Zugänglichkeit in herausfordernden auditiven Umgebungen.

Shyam Gollakota ist der Senior-Autor des Papiers und ein Professor an der University of Washington in der Paul G. Allen School of Computer Science & Engineering

“Wir neigen dazu, KI jetzt als webbasierte Chatbots zu betrachten, die Fragen beantworten. Aber in diesem Projekt entwickeln wir KI, um die auditive Wahrnehmung von jedem, der Kopfhörer trägt, entsprechend seinen Vorlieben zu modifizieren. Mit unseren Geräten können Sie jetzt eine einzelne Person klar hören, auch wenn Sie in einer lauten Umgebung mit vielen anderen Menschen sind.” – Gollakota

Testen von KI-Kopfhörern mit TSH

Um Target Speech Hearing auf den Prüfstand zu stellen, führte das Forschungsteam eine Studie mit 21 Teilnehmern durch. Jeder Teilnehmer trug die TSH-aktiven Kopfhörer und meldete einen Ziel­sprecher in einer lauten Umgebung an. Die Ergebnisse waren beeindruckend – im Durchschnitt bewerteten die Benutzer die Klarheit der Stimme des angemeldeten Sprechers als fast doppelt so hoch im Vergleich zum unverarbeiteten Audio-Signal.

Dieser Durchbruch baut auf der früheren Arbeit des Teams über “semantisches Hören” auf, das es den Benutzern ermöglichte, ihre auditive Umgebung basierend auf vordefinierten Klangklassifizierungen zu filtern, wie z.B. Vogelgesang oder menschliche Stimmen. TSH geht einen Schritt weiter, indem es die selektive Verstärkung der Stimme einer bestimmten Person ermöglicht.

Die Auswirkungen sind erheblich, von der Verbesserung persönlicher Gespräche in lauten Umgebungen bis hin zur Verbesserung der Zugänglichkeit für Menschen mit Hörbeeinträchtigungen. Wenn die Technologie weiterentwickelt wird, könnte sie grundlegend verändern, wie wir unsere auditive Welt erleben und interagieren.

Verbesserung von KI-Kopfhörern und Überwindung von Einschränkungen

Während Target Speech Hearing einen großen Schritt nach vorne in der auditiven KI darstellt, hat das System in seiner aktuellen Form einige Einschränkungen:

  • Anmeldung eines einzigen Sprechers: Derzeit kann TSH nur auf einen Sprecher gleichzeitig trainiert werden. Die Anmeldung mehrerer Sprecher ist noch nicht möglich.
  • Störungen durch ähnliche Audioquellen: Wenn eine andere laute Stimme aus der gleichen Richtung wie der Ziel­sprecher während der Anmeldephase kommt, kann das System Schwierigkeiten haben, die einzigartigen Stimmmerkmale des Ziel­sprechers zu isolieren.
  • Manuelle Neuanmeldung: Wenn der Benutzer mit der Audioqualität nach der ersten Trainingsphase nicht zufrieden ist, muss er den Ziel­sprecher manuell erneut anmelden, um die Klarheit zu verbessern.

Trotz dieser Einschränkungen arbeitet das Team der University of Washington aktiv daran, die Fähigkeiten von TSH zu verfeinern und zu erweitern. Eines ihrer Hauptziele ist es, die Technologie zu miniaturisieren, um sie nahtlos in Verbraucherprodukte wie Ohrhörer und Hörgeräte zu integrieren.

Wenn die Forscher die Grenzen dessen, was mit auditiver KI möglich ist, weiter vorantreiben, sind die potenziellen Anwendungen riesig, von der Verbesserung der Produktivität in ablenkenden Büroumgebungen bis hin zur Erleichterung klarerer Kommunikation für Ersthelfer und Militärpersonal in hochriskanten Situationen. Die Zukunft des selektiven Hörens sieht hell aus, und Target Speech Hearing ist gut positioniert, um eine wichtige Rolle bei der Gestaltung davon zu spielen.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.