Entrevistas

Tomer Aharoni, CEO y cofundador de Nagish – Serie de entrevistas

mm

Tomer Aharoni, CEO y cofundador de Nagish, combina una sólida base técnica proveniente de su trabajo como ingeniero de software en Bloomberg, investigación en NLP y IoT en la Universidad de Columbia, y experiencia previa en roles de inteligencia tecnológica dentro de las Fuerzas de Defensa de Israel, todo impulsado por su pasión por la accesibilidad y la intersección de la tecnología y la comunicación.

Nagish es una plataforma de comunicación impulsada por IA diseñada para hacer que las llamadas telefónicas sean completamente accesibles para personas sordas o con dificultades auditivas. La aplicación proporciona subtítulos en tiempo real y capacidades de texto a voz mientras permite a los usuarios mantener su número de teléfono existente, mantener la privacidad completa, y gestionar conversaciones a través de características como diccionarios personalizados, transcripciones guardadas y una integración de dispositivos sin problemas.

¿Cuál fue el momento o la idea que te llevó a canalizar esa experiencia en la creación de Nagish?

Durante mis estudios de pregrado en Columbia, estaba sentado en clase un día cuando recibí una llamada. No pude responderla porque eso habría interrumpido toda la clase, y eso me hizo pensar en cómo se puede realizar una llamada telefónica si no se puede oír o hablar. Eso llevó a una pregunta más grande: ¿cómo comunican las personas sordas o con dificultades auditivas por teléfono?

Eso fue en 2019, y nosotros (Alon Ezer, mi cofundador, y yo) descubrimos que la comunidad sorda dependía en gran medida de intérpretes y asistentes de subtítulos. Pensamos que era una locura, así que comenzamos a contactar a personas de la comunidad sorda local, y lo que escuchamos fue realmente sorprendente para nosotros. “Cuelgo cuando alguien me llama”, “No uso el teléfono”, o “Le pido a mi hermano que llame por mí”, fueron solo algunas de las respuestas que recibimos cuando les preguntamos cómo usaban el teléfono.

Más tarde, ese verano, hice una pasantía como ingeniero de software en Bloomberg. En mi equipo, teníamos otro pasante que era sordo. Cada vez que quería reunirme con ella, tenía que coordinar los horarios con ella y con dos intérpretes. La idea de “saltar a una llamada rápida para resolver esto” era imposible. Después de hablar con RRHH sobre ello, aprendí que encontrar a esos dos intérpretes que estuvieran familiarizados con el jargon técnico era casi imposible y que los usábamos siempre que estaban disponibles, pero no estaban disponibles todo el tiempo.

Cuanto más aprendíamos, más claro se hacía que esos no eran inconvenientes aislados, sino parte de un patrón mucho más grande. Incluso hoy en día, con los avances que han mejorado la accesibilidad, todavía hay muchos desafíos y áreas que necesitan ser abordadas. En Nagish, recientemente realizamos una encuesta y publicamos un informe, El impacto de la tecnología de la comunicación en la capacitación de las personas sordas y con dificultades auditivas, que encontró que el 65% de las personas sordas dijeron que necesitaban asistencia de una persona que oye al menos una vez a la semana para comunicarse de manera efectiva. Esa dependencia crea barreras reales en entornos profesionales, reflejadas en el hecho de que el 62% de los encuestados sordos dijeron que los desafíos de comunicación influyeron en sus decisiones de carrera y limitaron su capacidad para perseguir o avanzar en ciertos roles.

Estas experiencias, y mis crecientes conexiones con personas sordas, me llevaron a construir la primera iteración de Nagish. Tenemos una creencia que no ha cambiado: la comunicación debe ser accesible y privada.

Alon y yo construimos un prototipo, y la respuesta fue increíble. Nos dimos cuenta de lo que Nagish podría cambiar vidas. Luego, el COVID golpeó, y la necesidad explotó cuando el mundo se volvió remoto, y la falta de accesibilidad en la forma en que las personas se comunican se hizo realmente evidente.

¿Puedes compartir qué fueron los primeros días de Nagish, y qué desafíos enfrentaste al combinar objetivos de accesibilidad con tecnología de IA de vanguardia?

Los primeros días de Nagish fueron durante la pandemia, así que no había mucho happening en nuestras vidas más allá del trabajo. Alon y yo vivíamos alrededor de la esquina el uno del otro y teníamos mucho tiempo para brainstorming, prototipado y implementación de las últimas tecnologías. Trabajamos fuera de nuestros apartamentos durante 12+ horas al día durante meses.

Tener esta cantidad de tiempo en nuestras manos nos permitió pasar mucho tiempo hablando con nuestros usuarios y entendiendo sus necesidades. No queríamos hacer suposiciones. En este punto, todavía no teníamos la intención de hacer de ello una empresa. Lo que nos dio la motivación fue escuchar a los usuarios sobre sus luchas y saber que teníamos la oportunidad de resolverlos con tecnología.

¿Cómo hace que la tecnología de IA de Nagish conecte la comunicación entre personas sordas o con dificultades auditivas y el mundo que oye de maneras que las herramientas existentes no pueden?

Nagish utiliza IA para conectar las brechas de comunicación. Nuestros motores convierten el habla en texto, el texto de regreso en habla y el lenguaje de señas en texto (y viceversa) en tiempo real. Eso significa que una persona sorda o con dificultades auditivas puede simplemente ver lo que se está diciendo en una llamada y responder escribiendo o hablando, mientras que la persona que oye en el otro extremo simplemente experimenta una llamada telefónica estándar. Antes de que existiera este tipo de IA, las personas tenían que depender de servicios de retransmisión operados por humanos donde una tercera persona se sentaba en la línea y hacía toda la transcripción.

Con Nagish, no hay operador de retransmisión, no hay intérprete que programar, y no hay que esperar a que alguien más esté disponible. La aplicación devuelve la inmediatez, la privacidad y la independencia a las llamadas telefónicas, algo que los servicios de retransmisión tradicionales simplemente no pueden ofrecer.

Dado que Nagish está impulsado por IA, puede escalar a cada tipo de llamada: reuniones de trabajo, verificaciones familiares, emergencias y llamadas de servicio al cliente. La aplicación está diseñada para integrarse fácilmente en la vida regular: los usuarios pueden mantener su propio número, obtener subtítulos en tiempo real y usar la misma aplicación en llamadas telefónicas y conversaciones en persona. Toda la experiencia está diseñada para reducir la fricción y hacer que la comunicación se sienta tan natural y sin esfuerzo como sea posible.

¿De qué manera va más allá de la transcripción o subtítulos estándar para hacer que las interacciones sean más naturales e inclusivas?

Sabemos que el lenguaje no es solo palabras, también es cultura, identidad y matices. Eso es especialmente cierto para los lenguajes de señas, que dependen de la expresión facial, la emoción y la variación regional. Para hacer que las interacciones se sientan naturales en lugar de mecánicas, colaboramos directamente con lingüistas sordos y expertos en lenguaje de señas. Nos ayudan a dar forma a cómo nuestra IA aprende y se comporta, para que la tecnología se construya con la comunidad, no solo entrenada en sus datos.

Las herramientas de transcripción estándar a menudo se detienen en “aquí están las palabras que se dijeron”. Nuestro objetivo es apoyar una conversación real. Estamos implementando agentes de IA que pueden proporcionar contexto y gestionar el flujo de la llamada más allá de simplemente proporcionar subtítulos o leer texto a voz. Además, Nagish ofrece subtítulos en tiempo real optimizados para el flujo de la conversación, con características como fuentes ajustables, filtrado de spam, transcripción de correo de voz y la capacidad de guardar y revisar transcripciones en su propio dispositivo cuando elija. Todo eso crea una experiencia equivalente a la que las personas que oyen tienen en las llamadas telefónicas.

¿Cuál es el papel que desempeña el procesamiento de lenguaje natural para garantizar que su plataforma capture no solo palabras sino también intención y tono?

El procesamiento de lenguaje natural y la comprensión del lenguaje natural están en el núcleo de cómo Nagish captura no solo lo que alguien dice, sino lo que significa. El habla está llena de señales que agregan contexto, como el tono, el énfasis y más, y nuestros modelos de PLN están diseñados para captar esas capas para que los usuarios obtengan más que una transcripción básica. El objetivo es hacer que los subtítulos se sientan lo más cerca posible de una conversación natural.

Como Nagish está construido para situaciones del mundo real, como llamadas médicas, reuniones de trabajo y incluso emergencias, nuestros modelos están entrenados para manejar el habla rápida, voces superpuestas y matices emocionales. La conciencia del contexto es una gran razón por la que a menudo superamos a los transcritores humanos y a otras herramientas de IA. El sistema no solo adivina palabras; utiliza el flujo de la conversación para entender la intención.

¿Cómo está ayudando Nagish a los empleadores a construir lugares de trabajo más inclusivos mientras aborda las barreras financieras y logísticas que han limitado la accesibilidad durante mucho tiempo?

En Nagish, estamos ayudando a los empleadores a construir lugares de trabajo más inclusivos al eliminar las barreras financieras y logísticas que han hecho que la accesibilidad sea difícil de escalar. Tradicionalmente, crear un lugar de trabajo accesible ha significado depender de intérpretes programados, que son esenciales pero no siempre prácticos para la comunicación diaria, como llamadas rápidas, reuniones improvisadas o tareas de tiempo sensible. Estas limitaciones crean retrasos, agregan costos y pueden excluir involuntariamente a los empleados sordos o con dificultades auditivas del flujo de trabajo.

Nagish está trabajando para cambiar esa dinámica, dando a los empleados la capacidad de comunicarse de manera independiente y a demanda. Cuando las empresas eliminan esas barreras, las personas pueden participar plenamente, lo que lleva a equipos más fuertes, una mejor retención y un lugar de trabajo más equitativo.

Según una encuesta reciente que realizamos, más del 60% de los encuestados sordos y con dificultades auditivas dijeron que las barreras de comunicación habían afectado sus decisiones de carrera y crecimiento profesional. Es un desafío serio que, incluso con todo el progreso realizado en los últimos años, muestra que todavía hay mucho trabajo por hacer.

Permitimos a los empleadores pasar de adaptaciones reactivas a la inclusión proactiva, creando lugares de trabajo donde cada empleado pueda contribuir de manera independiente y con confianza.

¿Qué tipo de retroalimentación has recibido de los usuarios sordos y con dificultades auditivas, y cómo ha influido en la evolución del producto?

Construímos Nagish con la comunidad sorda desde el primer día, y desde entonces, hemos recibido una mezcla de entusiasmo, curiosidad y, en casos raros, alguna vacilación, que es exactamente como debería ser. La comunidad sorda es muy consciente y curiosa sobre la nueva tecnología, y con buena razón. Han escuchado tantas promesas exageradas en el pasado, y estamos tratando de evitar eso. Estamos priorizando el progreso sobre la perfección, lo que lleva tiempo, pero nuestro objetivo final es la perfección.

Esta mentalidad centrada en la comunidad se ve reforzada por lo que aprendimos en nuestro informe reciente. Después de adoptar tecnología asistiva, los usuarios mostraron un aumento significativo en la independencia diaria: el número de personas que podían comunicarse de manera independiente aumentó del 37% al 60% para los usuarios sordos, y del 32.9% al 63% para los usuarios con dificultades auditivas. Ese cambio se refleja en la retroalimentación que escuchamos todos los días: las personas quieren herramientas que hagan que la comunicación sea más fácil, más consistente y disponible en momentos en que los intérpretes no están disponibles o cuando prefieren la privacidad.

Cuando se trata de nuestra investigación para crear mejores tecnologías de interpretación del lenguaje de señas, nuestro objetivo no es reemplazar a los intérpretes humanos o los métodos de comunicación existentes, sino agregar otra opción, una herramienta que haga que la accesibilidad sea más consistente y esté disponible en cualquier lugar, en cualquier momento. La retroalimentación de los usuarios ha reforzado lo importante que es tener “otra opción”, especialmente en momentos en que un intérprete no está disponible o cuando alguien simplemente quiere privacidad e independencia. Para muchos, crea situaciones en las que la comunicación habría sido de otro modo incómoda, retrasada o inalcanzable.

Estamos adoptando un enfoque centrado en la comunidad para asegurarnos de que la tecnología se sienta auténtica, precisa y respetuosa. Mientras sigamos construyendo con usuarios del lenguaje de señas, creemos que esto será recibido como un paso adelante empoderante.

La privacidad es una preocupación clave en la tecnología de accesibilidad — ¿cómo maneja Nagish las conversaciones sensibles y mantiene la confianza del usuario?

La privacidad es fundamental para la misión de Nagish de empoderar a los usuarios sordos y con dificultades auditivas. Lo primero que mencionar es que con Nagish, ya puedes eliminar la necesidad de un transcriptor en vivo, así que de inmediato hay una sensación de privacidad que no era posible antes.

En el lado técnico, Nagish está diseñado para ser privado. No grabamos llamadas y nunca almacenamos transcripciones de llamadas en nuestros servidores más allá de la duración de una llamada. También no usamos ningún dato de llamada para fines de entrenamiento. Cuando los usuarios eligen guardar transcripciones, se almacenan localmente en su dispositivo en lugar de en una nube compartida. Características como la subtítulación segura de extremo a extremo y el almacenamiento local de transcripciones están allí específicamente para proteger conversaciones altamente sensibles — ya sea sobre salud, empleo o relaciones personales.

¿Cómo ves que la IA cambie la accesibilidad en la próxima década, y qué brechas aún quedan por llenar para que la tecnología lo haga?

Uno de los problemas más grandes con la accesibilidad digital es la falta de educación y observabilidad: los ingenieros no implementan texto alternativo, los diseñadores eligen colores inaccesibles porque se ven bien, y los gerentes de productos toman decisiones de producto para los KPI.

A medida que la IA se involucra más en cada aspecto del desarrollo de productos, desde la ingeniería hasta el diseño y la redacción, estamos viendo un enfoque proactivo en la accesibilidad. La IA podría cambiar la accesibilidad de algo reactivo y “arreglado” a algo proactivo y ambiental. También veremos una nueva ola de herramientas que aumentarán la comunicación en varios entornos — no solo llamadas, sino lugares de trabajo, aulas, transporte y servicios públicos — para que las personas con discapacidades, y las personas sordas o con dificultades auditivas en particular, no tengan que pedir constantemente adaptaciones; estarán allí por defecto.

¿Cómo visualizas la colaboración entre intérpretes humanos y la IA evolucionando — ¿reemplazará uno al otro eventualmente, o se fortalecen mutuamente?

Los intérpretes de lenguaje de señas hacen un trabajo increíble. Son esenciales para la comunidad, la accesibilidad y la comunicación. Pero la realidad es que simplemente no hay suficientes. En los EE. UU., por ejemplo, hay más de 500,000 personas que usan el lenguaje de señas americano como su lengua principal, y solo alrededor de 10,000 intérpretes certificados. Eso significa que una gran cantidad de situaciones — desde visitas al médico, reuniones de padres y maestros, entrevistas de trabajo y más — a menudo carecen de comunicación accesible.

Incluso cuando los intérpretes están disponibles, hay desafíos alrededor de la programación, el costo y la geografía. Alguien que vive en una zona rural tendría mucha más dificultad para obtener un intérprete, y ese retraso puede tener consecuencias reales, especialmente en entornos de atención médica o de emergencia.

La IA puede ayudar a cerrar esa brecha. Lo que estamos construyendo no está destinado a reemplazar a los intérpretes, sino a complementar su trabajo y hacer que la accesibilidad sea más escalable. Piensa en ello como una herramienta que interviene cuando un intérprete humano no está disponible.

Google Translate no reemplazó a los traductores profesionales, pero hizo posible tender puentes de comunicación en la vida diaria.

Con los avances en visión por computadora y procesamiento de lenguaje natural, la IA tiene el potencial de comenzar a interpretar el lenguaje de señas en tiempo real. Esto significa que más personas pueden comunicarse al instante, ya sea a través de una llamada de video, un quiosco público o un servicio de emergencia.

Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Nagish.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.