Umělá inteligence
Sluchátka s umělou inteligencí umožňují poslouchat jednoho člověka v davu

V přeplněném, hlučném prostředí jste někdy přáli, abyste mohli vytěsnit všechny pozadí a soustředit se pouze na osobu, kterou se snažíte poslouchat? Zatímco sluchátka s funkcí potlačení šumu udělala velké pokroky v vytváření auditivního čistého štítu, stále mají problémy s tím, aby specifické zvuky z okolí nositele propustily. Ale co kdyby vaše sluchátka mohla být naučena zachytit a zesílit hlas jedné osoby, i když se pohybujete po místnosti plné jiných rozhovorů?
Target Speech Hearing (TSH), průlomový systém umělé inteligence vyvinutý výzkumníky na University of Washington, dělá pokroky v této oblasti.
Jak funguje Target Speech Hearing
Abyste mohli použít TSH, musí osoba nosící speciálně vybavená sluchátka prostě hledět na osobu, kterou chce slyšet, po několik sekund. Tato krátká “registrace” umožňuje systému umělé inteligence naučit se a zachytit jedinečné hlasové vzorce cílového mluvčího.
Zde je, jak to funguje pod kapotou:
- Uživatel stiskne tlačítko, zatímco směruje hlavu směrem k požadovanému mluvčímu po 3-5 sekund.
- Mikrofony na obou stranách sluchátek zachycují zvukové vlny z hlasu mluvčího současně (s 16stupňovou rezervou chyby).
- Sluchátka přenášejí tento audio signál na vestavěný počítač.
- Software strojového učení analyzuje hlas a vytváří model jedinečných hlasových charakteristik mluvčího.
- Systém umělé inteligence používá tento model k izolaci a zesílení hlasu registrovaného mluvčího v reálném čase, i když se uživatel pohybuje v hlučném prostředí.
Čím déle cílový mluvčí mluví, tím více trénovacích dat systém obdrží, což mu umožňuje lépe se soustředit na a zjasnit požadovaný hlas. Tento inovativní přístup k “selektivnímu slyšení” otevírá svět možností pro zlepšení komunikace a přístupnosti v náročných auditivních prostředích.
Shyam Gollakota je hlavní autor článku a profesor na University of Washington v Paul G. Allen School of Computer Science & Engineering
“Máme tendenci myslet na umělou inteligenci jako na webové chatboty, které odpovídají na otázky. Ale v tomto projektu vyvíjíme umělou inteligenci, aby modifikovala auditivní vnímání každého, kdo nosí sluchátka, na základě jejich preferencí. S našimi zařízeními můžete nyní slyšet jeden hlas jasně, i když jste v hlučném prostředí s mnoha jinými lidmi, kteří mluví.” – Gollakota
Testování sluchátek s umělou inteligencí s TSH
Abyste mohli otestovat Target Speech Hearing, provedl výzkumný tým studii se 21 účastníky. Každý účastník nosil sluchátka s TSH a registroval cílového mluvčího v hlučném prostředí. Výsledky byly působivé – v průměru uživatelé ohodnotili jasnost hlasu registrovaného mluvčího jako téměř dvojnásobnou ve srovnání s nefiltrovaným audio signálem.
Tento průlom staví na dřívější práci týmu na “sémantickém slyšení”, které umožňovalo uživatelům filtrovat jejich auditivní prostředí na základě předem definovaných zvukových klasifikací, jako je zpěv ptáků nebo lidské hlasy. TSH jde o krok dále tím, že umožňuje selektivní zesílení hlasu konkrétní osoby.
Implikace jsou značné, od zlepšení osobních rozhovorů v hlučných prostředích až po zlepšení přístupnosti pro lidi se sluchovým postižením. Jakmile se technologie vyvine, mohla by zásadně změnit, jak zažíváme a interagujeme se svým auditivním světem.
Zlepšování sluchátek s umělou inteligencí a překonávání limitací
Zatímco Target Speech Hearing představuje velký skok vpřed v auditivních technologiích umělé inteligence, systém má některé limity ve své současné podobě:
- Registrování jednoho mluvčího: V současné době může TSH být naučeno se soustředit pouze na jednoho mluvčího najednou. Registrování více mluvčích současně není zatím možné.
- Porušení z podobných audio zdrojů: Pokud jiný hlasitý hlas pochází ze stejného směru jako cílový mluvčí během registračního procesu, systém může mít problémy s izolací požadovaného hlasu.
- Ruční pře-registrování: Pokud uživatel není spokojen s kvalitou audio signálu po počátečním tréninku, musí ručně pře-registrovat cílového mluvčího, aby zlepšil jasnost.
Přes tyto omezení tým z University of Washington aktivně pracuje na zlepšování a rozšiřování schopností TSH. Jedním z jejich hlavních cílů je zmenšit technologii, aby mohla být bezproblémově integrována do spotřebitelských produktů, jako jsou sluchátka a naslouchátka.
Jak výzkumníci pokračují v rozšiřování hranic toho, co je možné s auditivní umělou inteligencí, potenciální aplikace jsou rozsáhlé, od zlepšení produktivity v rušivých kancelářských prostředích až po usnadnění jasnější komunikace pro první respondenty a vojenské personály v kritických situacích. Budoucnost selektivního slyšení vypadá jasně a Target Speech Hearing je připraven hrát zásadní roli v jejím tvarování.












