Sztuczna inteligencja

Słuchawki AI Pozwalają Ci Słuchać Jednej Osoby W Tłumie

mm

W zatłoczonym, głośnym środowisku, czy kiedykolwiek życzysz sobie, abyś mógł wyłączyć cały tłum i skupić się wyłącznie na osobie, z którą próbujesz rozmawiać? Podczas gdy słuchawki z funkcją redukcji szumu dokonały wielkich postępów w tworzeniu czystej białej planszy, nadal mają trudności z filtrowaniem konkretnych dźwięków ze środowiska słuchawek. Ale co, jeśli Twoje słuchawki mogłyby być przeszkolone do wykrywania i wzmacniania głosu jednej osoby, nawet gdy poruszasz się po pokoju wypełnionym innymi rozmowami?

Target Speech Hearing (TSH), przełomowy system AI opracowany przez badaczy z University of Washington, robi postępy w tej dziedzinie.

Jak Działa Target Speech Hearing

Aby korzystać z TSH, osoba nosząca specjalnie wyposażone słuchawki musi tylko spojrzeć na osobę, której chce słuchać, przez kilka sekund. Ten krótki “zapis” pozwala systemowi AI nauczyć się i złapać unikalne wzorce głosowe mówcy.

Oto, jak to działa pod powierzchnią:

  1. Użytkownik naciska przycisk, kierując głową w stronę pożądanego mówcy na 3-5 sekund.
  2. Mikrofony po obu stronach słuchawek rejestrują fale dźwiękowe z głosu mówcy jednocześnie (z marginesem błędu 16 stopni).
  3. Słuchawki przesyłają ten sygnał audio do wbudowanego komputera.
  4. Oprogramowanie machine learning analizuje głos i tworzy model unikalnych cech głosowych mówcy.
  5. System AI wykorzystuje ten model do izolowania i wzmacniania głosu zapisanego mówcy w czasie rzeczywistym, nawet gdy użytkownik porusza się w głośnym środowisku.

Im dłużej mówca mówi, tym więcej danych szkoleniowych otrzymuje system, co pozwala mu lepiej skupić się na i wyjaśnić pożądany głos. Ten innowacyjny podejście do “selektywnego słuchania” otwiera świat możliwości dla poprawy komunikacji i dostępności w trudnych środowiskach dźwiękowych.

Shyam Gollakota jest seniorem autorem artykułu i profesorem UW w Paul G. Allen School of Computer Science & Engineering

“Zwykle myślimy o AI jako o internetowych chatbotach, które odpowiadają na pytania. Ale w tym projekcie rozwijamy AI, aby modyfikować percepcję słuchową każdego, kto nosi słuchawki, zgodnie z ich preferencjami. Z naszymi urządzeniami możesz teraz słyszeć jednego mówcę wyraźnie, nawet jeśli znajdujesz się w głośnym środowisku z wieloma innymi rozmowami.” – Gollakota

Testowanie Słuchawek AI z TSH

Aby przetestować Target Speech Hearing, zespół badawczy przeprowadził badanie z 21 uczestnikami. Każdy uczestnik nosił słuchawki z włączonym TSH i zarejestrował mówcę w głośnym środowisku. Wyniki były imponujące – średnio użytkownicy oceniali klarowność głosu zarejestrowanego mówcy jako prawie dwa razy wyższą w porównaniu z nieprzetworzonym sygnałem audio.

Ten przełom opiera się na wcześniejszej pracy zespołu nad “semantycznym słuchaniem”, które pozwalało użytkownikom filtrować ich środowisko dźwiękowe na podstawie predefiniowanych klasyfikacji dźwięków, takich jak ptaki śpiewające lub ludzkie głosy. TSH idzie o krok dalej, umożliwiając selektywne wzmacnianie głosu konkretnego jednostki.

Implikacje są znaczące, od poprawy osobistych rozmów w głośnych środowiskach do poprawy dostępności dla osób z zaburzeniami słuchu. W miarę rozwoju technologii może ona fundamentalnie zmienić, jak doświadczamy i wchodzimy w interakcje ze światem dźwięku.

Poprawianie Słuchawek AI i Pokonywanie Ograniczeń

Chociaż Target Speech Hearing reprezentuje znaczący krok naprzód w dziedzinie AI dźwięku, system ten ma pewne ograniczenia w swojej obecnej formie:

  • Zapis jednego mówcy: Na razie TSH może być przeszkolony tylko do skupienia się na jednym mówcy na raz. Zapis wielu mówców jednocześnie nie jest jeszcze możliwy.
  • Interferencja ze strony podobnych źródeł audio: Jeśli inny głośny głos pochodzi z tej samej strony co mówca docelowy podczas procesu zapisu, system może mieć trudności z izolowaniem unikalnych wzorców głosowych pożądanego mówcy.
  • Ręczny ponowny zapis: Jeśli użytkownik nie jest zadowolony z jakości audio po początkowym szkoleniu, musi ręcznie ponownie zarejestrować mówcę, aby poprawić klarowność.

Pomimo tych ograniczeń, zespół University of Washington aktywnie pracuje nad udoskonaleniem i rozwijaniem możliwości TSH. Jednym z ich głównych celów jest miniaturyzacja technologii, co pozwoli na jej bezproblemową integrację z produktami konsumenckimi, takimi jak słuchawki i aparaty słuchowe.

W miarę jak badacze kontynują rozwijanie granic tego, co jest możliwe w dziedzinie AI dźwięku, potencjalne zastosowania są ogromne, od poprawy produktywności w rozpraszających środowiskach biurowych do ułatwienia klarownej komunikacji dla pierwszych odpowiedzi i personelu wojskowego w sytuacjach o wysokim ryzyku. Przyszłość selektywnego słuchania wygląda obiecująco, a Target Speech Hearing jest gotowy do odegrania kluczowej roli w kształtowaniu jej.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.