Intelligenza artificiale
EchoSpeech: Rivoluzionando la Comunicazione con la Tecnologia di Riconoscimento del Discorso Silenzioso

I ricercatori dell’Università di Cornell hanno sviluppato EchoSpeech, un’interfaccia di riconoscimento del discorso silenzioso che utilizza il rilevamento acustico e l’intelligenza artificiale per riconoscere continuamente fino a 31 comandi non vocalizzati in base ai movimenti delle labbra e della bocca. Questa interfaccia indossabile a basso consumo può essere operata su uno smartphone e richiede solo pochi minuti di dati di formazione dell’utente per il riconoscimento dei comandi.
Ruidong Zhang, uno studente di dottorato in scienze dell’informazione, è l’autore principale di “EchoSpeech: Riconoscimento Continuo del Discorso Silenzioso su Occhiali Minimamente Invasivi alimentati da Rilevamento Acustico“, che sarà presentato alla Conferenza dell’Association for Computing Machinery su Factori Umani nel Computing Systems (CHI) di questo mese ad Amburgo, Germania.
“Per le persone che non possono vocalizzare il suono, questa tecnologia del discorso silenzioso potrebbe essere un ottimo input per un sintetizzatore vocale. Potrebbe ridare la voce ai pazienti”, ha detto Zhang, sottolineando le potenziali applicazioni della tecnologia con ulteriore sviluppo.
Applicazioni nel Mondo Reale e Vantaggi per la Privacy
Nella sua forma attuale, EchoSpeech potrebbe essere utilizzato per comunicare con gli altri tramite smartphone in ambienti in cui la parlata è scomoda o inappropriata, come ristoranti rumorosi o biblioteche silenziose. L’interfaccia del discorso silenzioso può anche essere abbinata a uno stilo e utilizzata con software di progettazione come CAD, riducendo notevolmente la necessità di una tastiera e di un mouse.
Dotati di microfoni e altoparlanti più piccoli di un’eraser, gli occhiali EchoSpeech funzionano come un sistema sonar indossabile alimentato dall’intelligenza artificiale, inviando e ricevendo onde sonore attraverso il viso e rilevando i movimenti della bocca. Un algoritmo di apprendimento profondo analizza poi questi profili di eco in tempo reale con una precisione di circa il 95%.
“Stiamo spostando il sonar sul corpo”, ha detto Cheng Zhang, assistente professore di scienze dell’informazione e direttore del Laboratorio Smart Computer Interfaces for Future Interactions (SciFi) di Cornell.
La tecnologia di riconoscimento del discorso silenzioso esistente si basa generalmente su un set limitato di comandi predefiniti e richiede all’utente di affrontare o indossare una telecamera. Cheng Zhang ha spiegato che ciò non è né pratico né fattibile e solleva anche significative preoccupazioni per la privacy sia per l’utente che per coloro con cui interagisce.
La tecnologia di rilevamento acustico di EchoSpeech elimina la necessità di telecamere video indossabili. Inoltre, poiché i dati audio sono più piccoli dei dati di immagine o video, richiedono meno larghezza di banda per l’elaborazione e possono essere trasmessi a uno smartphone tramite Bluetooth in tempo reale, secondo François Guimbretière, professore di scienze dell’informazione.
“E poiché i dati vengono elaborati localmente sul tuo smartphone invece di essere caricati sul cloud”, ha detto, “le informazioni sensibili sulla privacy non lasciano mai il tuo controllo.”
