Kontakt z nami

Artificial Intelligence

Słuchawki AI umożliwiają słuchanie jednej osoby w tłumie

Opublikowany

 on

Czy w zatłoczonym, hałaśliwym otoczeniu marzyłeś kiedyś o wyciszeniu rozmów w tle i skupieniu się wyłącznie na osobie, której chcesz słuchać? Choć słuchawki redukujące hałas poczyniły ogromne postępy w tworzeniu pustej przestrzeni dźwiękowej, nadal mają trudności z przepuszczeniem przez nie określonych dźwięków z otoczenia użytkownika. Ale co by było, gdyby Twoje słuchawki można było wytrenować tak, aby wychwytywały i wzmacniały głos pojedynczej osoby, nawet gdy poruszasz się po pokoju wypełnionym innymi rozmowami?

Docelowe słyszenie mowy (TSH), przełomowy system sztucznej inteligencji opracowany przez naukowców z Uniwersytetu Waszyngtońskiego, czyni postępy w tej dziedzinie.

Jak działa docelowe słyszenie mowy

Aby skorzystać z TSH, osoba nosząca specjalnie wyposażone słuchawki musi po prostu spojrzeć przez kilka sekund na osobę, którą chce usłyszeć. Ten krótki okres „wpisywania” pozwala systemowi AI uczyć się i uchwycić unikalne wzorce wokalne docelowego mówcy.

Oto jak to działa pod maską:

  1. Użytkownik naciska przycisk, kierując głowę w stronę żądanego głośnika przez 3-5 sekund.
  2. Mikrofony po obu stronach zestawu słuchawkowego wychwytują jednocześnie fale dźwiękowe z głosu mówiącego (z marginesem błędu 16 stopni).
  3. Słuchawki przesyłają ten sygnał audio do wbudowanego komputera.
  4. Oprogramowanie do uczenia maszynowego analizuje głos i tworzy model charakterystycznych cech głosu mówiącego.
  5. System AI wykorzystuje ten model do izolowania i wzmacniania głosu zarejestrowanego mówcy w czasie rzeczywistym, nawet gdy użytkownik porusza się w hałaśliwym otoczeniu.

Im dłużej mówi docelowy mówca, tym więcej danych treningowych otrzymuje system, co pozwala mu lepiej się skupić i wyraźniej wyrazić pożądany głos. To innowacyjne podejście do „słyszenia selektywnego” otwiera świat możliwości lepszej komunikacji i dostępności w wymagających środowiskach słuchowych.

Shyam Gollakota jest starszym autorem artykułu i profesorem UW w Szkole Informatyki i Inżynierii im. Paula G. Allena

„Obecnie myślimy o sztucznej inteligencji jako o internetowych chatbotach, które odpowiadają na pytania. Jednak w tym projekcie opracowujemy sztuczną inteligencję, aby modyfikować percepcję słuchową każdej osoby noszącej słuchawki, biorąc pod uwagę jej preferencje. Dzięki naszym urządzeniom możesz teraz wyraźnie słyszeć pojedynczy głośnik, nawet jeśli znajdujesz się w hałaśliwym otoczeniu, w którym rozmawia wiele innych osób. – Gollakota

Słuchawki AI odfiltrowują hałas, dzięki czemu słyszysz jeden głos w tłumie

Testowanie słuchawek AI z TSH

Aby przetestować docelowe słyszenie mowy, zespół badawczy przeprowadził badanie z udziałem 21 uczestników. Każdy badany nosił słuchawki obsługujące TSH i zapisał docelowego mówcę w hałaśliwym otoczeniu. Wyniki były imponujące – średnio użytkownicy oceniali klarowność głosu zarejestrowanego mówcy jako prawie dwukrotnie wyższą w porównaniu z niefiltrowanym sygnałem audio.

Ten przełom opiera się na przełomie zespołu wcześniejsza praca na „słyszeniu semantycznym”, które umożliwiło użytkownikom filtrowanie środowiska słuchowego w oparciu o wcześniej zdefiniowane klasyfikacje dźwięków, takie jak śpiew ptaków czy ludzkie głosy. TSH idzie o krok dalej, umożliwiając selektywne wzmocnienie głosu konkretnej osoby.

Konsekwencje są znaczące, począwszy od usprawnienia osobistych rozmów w głośnym otoczeniu po poprawę dostępności dla osób z wadami słuchu. Wraz z rozwojem technologii może ona zasadniczo zmienić sposób, w jaki doświadczamy świata słuchowego i wchodzimy w interakcję z nim.

Udoskonalanie słuchawek AI i pokonywanie ograniczeń

Chociaż docelowe słyszenie mowy stanowi duży krok naprzód w dziedzinie słuchowej sztucznej inteligencji, system ma pewne ograniczenia w swojej obecnej formie:

  • Zapisy na jednego mówcę: Obecnie TSH można trenować tylko tak, aby skupiał się na jednym mówcy na raz. Jednoczesne zarejestrowanie wielu mówców nie jest jeszcze możliwe.
  • Zakłócenia z podobnych źródeł dźwięku: Jeśli podczas procesu rejestracji inny głośny głos dobiega z tego samego kierunku co docelowy mówca, system może mieć trudności z wyizolowaniem wzorców wokalnych żądanej osoby.
  • Ręczna ponowna rejestracja: Jeśli użytkownik nie jest zadowolony z jakości dźwięku po wstępnym szkoleniu, musi ręcznie ponownie zarejestrować głośnik docelowy, aby poprawić klarowność.

Pomimo tych ograniczeń zespół Uniwersytetu Waszyngtońskiego aktywnie pracuje nad udoskonaleniem i rozszerzeniem możliwości TSH. Jednym z ich głównych celów jest miniaturyzacja technologii, umożliwiająca jej bezproblemową integrację z produktami konsumenckimi, takimi jak wkładki douszne i aparaty słuchowe.

Ponieważ badacze w dalszym ciągu przesuwają granice możliwości słuchowej sztucznej inteligencji, potencjalne zastosowania są ogromne, od zwiększania produktywności w rozpraszających środowiskach biurowych po ułatwianie wyraźniejszej komunikacji ratownikom i personelowi wojskowemu w sytuacjach o wysokiej stawce. Przyszłość słyszenia selektywnego rysuje się w jasnych barwach, a docelowe słyszenie mowy odegra kluczową rolę w jej kształtowaniu.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją badającym najnowsze osiągnięcia w dziedzinie sztucznej inteligencji. Współpracował z wieloma startupami i publikacjami AI na całym świecie.