Kunstmatige intelligentie
AI-koptelefoons laten je één persoon in een menigte horen

In een drukke, lawaaierige omgeving, hebt u ooit gewenst dat u alle achtergrondgeluiden kon uitschakelen en u alleen op de persoon kon concentreren die u probeert te horen? Terwijl noise-canceling-koptelefoons grote stappen hebben gezet in het creëren van een auditief blanco canvas, hebben ze nog steeds moeite om specifieke geluiden uit de omgeving van de drager te laten filteren. Maar wat als uw koptelefoon getraind kon worden om de stem van één persoon op te pikken en te versterken, zelfs als u zich in een kamer met andere gesprekken beweegt?
Target Speech Hearing (TSH), een baanbrekend AI-systeem ontwikkeld door onderzoekers aan de University of Washington, maakt vorderingen in dit gebied.
Hoe Target Speech Hearing werkt
Om TSH te gebruiken, hoeft de drager van de speciaal uitgeruste koptelefoon alleen maar naar de persoon te kijken die hij wil horen voor een paar seconden. Deze korte “inschrijvingsperiode” stelt het AI-systeem in staat om de unieke spraakpatronen van de doelspreker te leren en te volgen.
Hieronder volgt hoe het werkt onder de motorkap:
- De gebruiker tapt op een knop terwijl hij zijn hoofd naar de gewenste spreker richt voor 3-5 seconden.
- Microfoons aan beide zijden van de koptelefoon pikken de geluidsgolven van de stem van de spreker op (met een marge van 16 graden).
- De koptelefoon verzendt dit audiosignaal naar een ingebouwde computer.
- De machine learning-software analyseert de stem en creëert een model van de distincte spraakkenmerken van de spreker.
- Het AI-systeem gebruikt dit model om de stem van de ingeschreven spreker te isoleren en te versterken in real-time, zelfs als de gebruiker zich in een lawaaierige omgeving beweegt.
Hoe langer de doelspreker praat, hoe meer trainingsgegevens het systeem ontvangt, waardoor het beter kan focussen op en verhelderen van de gewenste stem. Deze innovatieve aanpak van “selectief horen” opent een wereld van mogelijkheden voor verbeterde communicatie en toegankelijkheid in moeilijke auditieve omgevingen.
Shyam Gollakota is de senior auteur van het artikel en een professor aan de Paul G. Allen School of Computer Science & Engineering
“We tend to think of AI now as web-based chatbots that answer questions. But in this project, we develop AI to modify the auditory perception of anyone wearing headphones, given their preferences. With our devices you can now hear a single speaker clearly even if you are in a noisy environment with lots of other people talking.” – Gollakota
Testen van AI-koptelefoons met TSH
Om Target Speech Hearing door zijn paces te halen, voerde het onderzoeksteam een studie uit met 21 deelnemers. Elke deelnemer droeg de TSH-geactiveerde koptelefoons en schreef een doelspreker in in een lawaaierige omgeving. De resultaten waren indrukwekkend – gemiddeld beoordeelden de gebruikers de helderheid van de stem van de ingeschreven spreker als bijna tweemaal zo hoog in vergelijking met de ongefilterde audio-feed.
Deze doorbraak bouwt voort op het eerdere werk van het team over “semantisch horen”, dat gebruikers in staat stelde om hun auditieve omgeving te filteren op basis van vooraf gedefinieerde geluidscategorieën, zoals vogelgeluiden of menselijke stemmen. TSH gaat een stap verder door de selectieve versterking van de stem van een specifieke persoon mogelijk te maken.
De implicaties zijn aanzienlijk, van het verbeteren van persoonlijke gesprekken in luidruchtige omgevingen tot het verbeteren van de toegankelijkheid voor mensen met gehoorbeperkingen. Naarmate de technologie zich ontwikkelt, kan het fundamenteel veranderen hoe we onze auditieve wereld ervaren en ermee omgaan.
Verbeteren van AI-koptelefoons en overwinnen van beperkingen
Hoewel Target Speech Hearing een belangrijke stap voorwaarts in auditieve AI vertegenwoordigt, heeft het systeem enkele beperkingen in zijn huidige vorm:
- Enkele sprekerinschrijving: Op dit moment kan TSH alleen worden getraind om één spreker tegelijk te focussen. Het inschrijven van meerdere sprekers tegelijk is nog niet mogelijk.
- Interferentie van gelijkaardige audiobronnen: Als een andere luidruchtige stem uit dezelfde richting komt als de doelspreker tijdens het inschrijvingsproces, kan het systeem moeite hebben om de gewenste spraakpatronen van de spreker te isoleren.
- Handmatige herinschrijving: Als de gebruiker niet tevreden is met de audio-kwaliteit na de initiële training, moet hij de doelspreker handmatig opnieuw inschrijven om de helderheid te verbeteren.
Ondanks deze beperkingen werkt het team van de University of Washington actief aan het verfijnen en uitbreiden van de mogelijkheden van TSH. Een van hun belangrijkste doelen is het miniaturiseren van de technologie, waardoor het kan worden geïntegreerd in consumentenproducten zoals oordopjes en gehoorapparaten.
Naarmate de onderzoekers de grenzen van wat mogelijk is met auditieve AI blijven verleggen, zijn de potentiële toepassingen enorm, van het verbeteren van de productiviteit in afleidende kantooromgevingen tot het faciliteren van duidelijke communicatie voor eerste hulpverleners en militair personeel in hoogrisicosituaties. De toekomst van selectief horen ziet er rooskleurig uit, en Target Speech Hearing is goed gepositioneerd om een belangrijke rol te spelen in het vormgeven ervan.












