Connect with us

Inteligencia artificial

EchoSpeech: Revolucionando la Comunicación con Tecnología de Reconocimiento de Habla Silenciosa

mm

Los investigadores de la Universidad de Cornell han desarrollado EchoSpeech, una interfaz de reconocimiento de habla silenciosa que emplea sensores acústicos y inteligencia artificial para reconocer continuamente hasta 31 comandos no vocalizados en función de los movimientos de los labios y la boca. Esta interfaz wearable de baja potencia puede operarse en un smartphone y requiere solo unos minutos de datos de entrenamiento del usuario para el reconocimiento de comandos.

Ruidong Zhang, un estudiante de doctorado en ciencias de la información, es el autor principal de “EchoSpeech: Reconocimiento Continuo de Habla Silenciosa en Gafas Minimamente Invasivas Impulsadas por Sensores Acústicos“, que se presentará en la Conferencia de la Asociación para la Maquinaria de Computación sobre Factores Humanos en Sistemas de Computación (CHI) este mes en Hamburgo, Alemania.

“Para las personas que no pueden vocalizar sonidos, esta tecnología de habla silenciosa podría ser un excelente entrada para un sintetizador de voz. Podría devolverles la voz a los pacientes”, dijo Zhang, destacando las posibles aplicaciones de la tecnología con un desarrollo adicional.

Aplicaciones en el Mundo Real y Ventajas de Privacidad

En su forma actual, EchoSpeech podría usarse para comunicarse con otros a través de un smartphone en entornos donde el habla es inconveniente o inapropiada, como restaurantes ruidosos o bibliotecas silenciosas. La interfaz de habla silenciosa también se puede emparejar con un stylus y utilizarse con software de diseño como CAD, reduciendo significativamente la necesidad de un teclado y un ratón.

Equipadas con micrófonos y altavoces más pequeños que las gomas de borrar, las gafas EchoSpeech funcionan como un sistema de sonar wearable impulsado por inteligencia artificial, enviando y recibiendo ondas sonoras a través de la cara y detectando movimientos de la boca. Un algoritmo de aprendizaje profundo analiza estos perfiles de eco en tiempo real con una precisión de aproximadamente el 95%.

“Estamos llevando el sonar al cuerpo”, dijo Cheng Zhang, profesor asistente de ciencias de la información y director del Laboratorio de Interfaces de Computadora Inteligentes para Interacciones Futuras (SciFi) de Cornell.

La tecnología de reconocimiento de habla silenciosa existente generalmente se basa en un conjunto limitado de comandos preestablecidos y requiere que el usuario se enfrente o lleve una cámara. Cheng Zhang explicó que esto no es práctico ni factible y también plantea preocupaciones de privacidad significativas para el usuario y aquellos con quienes interactúa.

La tecnología de sensores acústicos de EchoSpeech elimina la necesidad de cámaras de video wearable. Además, como los datos de audio son más pequeños que los datos de imagen o video, requieren menos ancho de banda para procesar y se pueden transmitir a un smartphone a través de Bluetooth en tiempo real, según François Guimbretière, profesor de ciencias de la información.

“Y porque los datos se procesan localmente en su smartphone en lugar de subirlos a la nube”, dijo, “la información sensible de privacidad nunca sale de su control.”

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.