Intelligenza artificiale

Cuffie AI che ti permettono di ascoltare una persona in una folla

mm

In un ambiente affollato e rumoroso, hai mai desiderato poter escludere tutte le chiacchiere di sottofondo e concentrarti solo sulla persona che stai cercando di ascoltare? Mentre le cuffie con cancellazione del rumore hanno fatto grandi passi avanti nel creare una sorta di “tabula rasa” uditiva, esse ancora lottano per permettere a specifici suoni provenienti dall’ambiente circostante di filtrare attraverso. Ma cosa succederebbe se le tue cuffie potessero essere addestrate a rilevare e amplificare la voce di una singola persona, anche mentre ti muovi in una stanza piena di altre conversazioni?

Target Speech Hearing (TSH), un sistema AI rivoluzionario sviluppato da ricercatori dell’Università di Washington, sta facendo progressi in questo settore.

Come funziona Target Speech Hearing

Per utilizzare TSH, una persona che indossa cuffie speciali deve semplicemente guardare l’individuo che desidera ascoltare per alcuni secondi. Questo breve periodo di “registrazione” consente al sistema AI di imparare e agganciarsi ai modelli vocali unici del relatore bersaglio.

Ecco come funziona nel dettaglio:

  1. L’utente preme un pulsante mentre dirige la testa verso il relatore desiderato per 3-5 secondi.
  2. I microfoni su entrambi i lati della cuffia raccolgono le onde sonore della voce del relatore contemporaneamente (con un margine di errore di 16 gradi).
  3. Le cuffie trasmettono questo segnale audio a un computer integrato.
  4. Il software di apprendimento automatico analizza la voce e crea un modello delle caratteristiche vocali distintive del relatore.
  5. Il sistema AI utilizza questo modello per isolare e amplificare la voce del relatore registrato in tempo reale, anche mentre l’utente si muove in un ambiente rumoroso.

Più a lungo il relatore bersaglio parla, più dati di formazione il sistema riceve, permettendogli di concentrarsi meglio e chiarire la voce desiderata. Questo approccio innovativo all'”udito selettivo” apre un mondo di possibilità per una comunicazione e un’accessibilità migliorate in ambienti uditivi impegnativi.

Shyam Gollakota è l’autore principale del documento e un professore dell’Università di Washington alla Paul G. Allen School of Computer Science & Engineering

“Tendiamo a pensare all’AI ora come chatbot basati sul web che rispondono alle domande. Ma in questo progetto, sviluppiamo l’AI per modificare la percezione uditiva di chiunque indossi le cuffie, in base alle sue preferenze. Con i nostri dispositivi puoi ora ascoltare un singolo relatore chiaramente anche se ti trovi in un ambiente rumoroso con molte altre persone che parlano.” – Gollakota

Test delle cuffie AI con TSH

Per mettere alla prova Target Speech Hearing, il team di ricerca ha condotto uno studio con 21 partecipanti. Ogni soggetto ha indossato le cuffie abilitate TSH e ha registrato un relatore bersaglio in un ambiente rumoroso. I risultati sono stati impressionanti – in media, gli utenti hanno valutato la chiarezza della voce del relatore registrato come quasi il doppio rispetto al feed audio non filtrato.

Questa innovazione si basa sul lavoro precedente del team su “udito semantico”, che ha permesso agli utenti di filtrare l’ambiente uditivo in base a classificazioni sonore predefinite, come il canto degli uccelli o le voci umane. TSH porta questo concetto un passo più in là, consentendo l’amplificazione selettiva della voce di un individuo specifico.

Le implicazioni sono significative, dalla miglioramento delle conversazioni personali in ambienti rumorosi all’aumento dell’accessibilità per coloro che hanno problemi di udito. Man mano che la tecnologia si sviluppa, potrebbe fondamentalmente cambiare il modo in cui esperienziamo e interagiamo con il nostro mondo uditivo.

Miglioramento delle cuffie AI e superamento dei limiti

Sebbene Target Speech Hearing rappresenti un grande passo avanti nell’AI uditiva, il sistema ha alcuni limiti nella sua forma attuale:

  • Registrazione di un solo relatore: al momento, TSH può essere addestrato a concentrarsi solo su un relatore alla volta. La registrazione di più relatori contemporaneamente non è ancora possibile.
  • Interferenza da fonti audio simili: se un’altra voce forte proviene dalla stessa direzione del relatore bersaglio durante il processo di registrazione, il sistema potrebbe avere difficoltà a isolare i modelli vocali dell’individuo desiderato.
  • Reregistrazione manuale: se l’utente non è soddisfatto della qualità audio dopo la formazione iniziale, deve reregistrare manualmente il relatore bersaglio per migliorare la chiarezza.

Nonostante queste limitazioni, il team dell’Università di Washington sta attivamente lavorando per raffinare e ampliare le capacità di TSH. Uno dei loro obiettivi principali è miniaturizzare la tecnologia, permettendole di essere integrata senza problemi in prodotti per il consumo come auricolari e apparecchi acustici.

Man mano che i ricercatori continuano a spingere i confini di ciò che è possibile con l’AI uditiva, le potenziali applicazioni sono vastissime, dalla miglioramento della produttività in ambienti di lavoro distraenti alla facilitazione di una comunicazione più chiara per i primi soccorritori e il personale militare in situazioni ad alto rischio. Il futuro dell’udito selettivo si prospetta luminoso, e Target Speech Hearing è pronto a svolgere un ruolo fondamentale nel plasmarlo.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.