Connect with us

Tomer Aharoni, CEO e Co-Fundador da Nagish – Série de Entrevistas

Entrevistas

Tomer Aharoni, CEO e Co-Fundador da Nagish – Série de Entrevistas

mm

Tomer Aharoni, CEO e Co-Fundador da Nagish, reúne uma forte base técnica de seu trabalho como engenheiro de software na Bloomberg, pesquisa em NLP e IoT na Universidade de Columbia, e experiência anterior em funções de inteligência tecnológica dentro das Forças de Defesa de Israel, tudo impulsionado por sua paixão por acessibilidade e a interseção de tecnologia e comunicação.

Nagish é uma plataforma de comunicação alimentada por IA projetada para tornar as chamadas telefônicas totalmente acessíveis para pessoas surdas ou com deficiência auditiva. O aplicativo fornece legendagem em tempo real e capacidades de texto-para-fala, permitindo que os usuários mantenham seu número de telefone existente, mantenham a privacidade completa e gerenciem conversas por meio de recursos como dicionários personalizados, transcrições salvas e integração de dispositivos sem interrupções.

Você trabalhou na Bloomberg e realizou pesquisas em NLP na Universidade de Columbia, qual foi o momento ou insight que o levou a canalizar essa experiência para criar a Nagish?

During meu período de estudos de graduação na Universidade de Columbia, eu estava sentado em uma aula um dia quando recebi uma ligação. Eu não pude atender porque isso teria interrompido toda a aula, e isso me fez pensar sobre como você pode realizar uma ligação telefônica se não pode ouvir ou falar? Isso levou a uma pergunta maior: como as pessoas surdas ou com deficiência auditiva se comunicam ao telefone?

Isso foi em 2019, e descobrimos que a comunidade surda dependia fortemente de intérpretes e assistentes de legendagem. Achamos que isso era louco, então começamos a entrar em contato com pessoas da comunidade surda local, e o que ouvimos foi realmente surpreendente para nós. “Eu desligo quando alguém liga para mim”, “Eu não uso o telefone”, ou “Eu peço ao meu irmão para ligar para mim” foram apenas algumas das respostas que recebemos quando perguntamos às pessoas como elas usam o telefone.

Mais tarde, naquele verão, eu fiz um estágio como engenheiro de software na Bloomberg. Em minha equipe, tínhamos outro estagiário que era surdo. Cada vez que eu queria me encontrar com ela, eu tinha que coordenar os horários com ela e com dois intérpretes. O “vamos conversar rapidamente para resolver isso” era simplesmente impossível. Depois de conversar com o RH sobre isso, eu aprendi que encontrar esses dois intérpretes que estavam familiarizados com o jargão técnico era quase impossível e que nós os usávamos sempre que estavam disponíveis, mas eles não estavam disponíveis em tempo integral.

Quanto mais aprendíamos, mais ficava claro que esses não eram inconvenientes isolados, mas parte de um padrão muito maior. Mesmo hoje, com os avanços que melhoraram a acessibilidade, ainda há muitos desafios e áreas que precisam ser abordadas. Na Nagish, realizamos recentemente uma pesquisa e publicamos um relatório, O Impacto da Tecnologia de Comunicação no Empoderamento das Pessoas Surdas e com Deficiência Auditiva, que descobriu que 65% das pessoas surdas disseram que precisavam de assistência de uma pessoa ouvinte pelo menos uma vez por semana para se comunicar de forma eficaz. Essa dependência cria barreiras reais em ambientes profissionais, refletidas no fato de que 62% das pessoas surdas disseram que os desafios de comunicação influenciaram suas decisões de carreira e limitaram sua capacidade de perseguir ou avançar em certos papéis.

Essas experiências, e minhas conexões crescentes com indivíduos surdos, me levaram a criar a primeira versão da Nagish. Nós temos uma crença que não mudou – a comunicação deve ser acessível e privada.

Alon e eu construímos um protótipo, e a resposta foi incrível. Nós percebemos como a Nagish poderia ser transformadora. Então, a COVID-19 chegou, e a necessidade explodiu à medida que o mundo se tornou remoto, e a falta de acessibilidade na forma como as pessoas se comunicam realmente se tornou aparente.

Pode compartilhar o que os primeiros dias da Nagish foram como, e quais desafios você enfrentou ao mesclar objetivos de acessibilidade com tecnologia de IA de ponta?

Os primeiros dias da Nagish foram durante a pandemia, então não havia muito acontecendo em nossas vidas além do trabalho. Alon e eu morávamos perto um do outro e tínhamos muito tempo para brainstorm, prototipar e implementar as últimas tecnologias. Nós trabalhamos fora de nossos apartamentos por 12 horas ou mais por dia, durante meses.

Ter esse tempo em nossas mãos nos permitiu passar muito tempo conversando com nossos usuários e entendendo suas necessidades. Nós não queríamos fazer suposições. Nesse ponto, ainda não tínhamos a intenção de transformar isso em uma empresa. O que nos deu a motivação foi ouvir dos usuários sobre suas lutas e saber que tínhamos a chance de resolvê-las com tecnologia.

Como a tecnologia de IA da Nagish conecta a comunicação entre indivíduos surdos ou com deficiência auditiva e o mundo ouvinte de maneiras que as ferramentas existentes não podem?

A Nagish usa IA para conectar as lacunas de comunicação. Nossos motores transformam fala em texto, texto de volta em fala e língua de sinais em texto (e vice-versa) em tempo real. Isso significa que uma pessoa surda ou com deficiência auditiva pode simplesmente ver o que está sendo dito em uma ligação e responder digitando ou falando, enquanto a pessoa ouvinte na outra extremidade experimenta uma ligação telefônica padrão. Antes dessa IA existir, as pessoas tinham que confiar em serviços de retransmissão operados por humanos, onde uma terceira pessoa sentava na linha e fazia toda a transcrição.

Com a Nagish, não há operador de retransmissão, não há intérprete para agendar e não há espera por alguém mais estar disponível. O aplicativo coloca imediatez, privacidade e independência de volta nas ligações telefônicas, algo que os serviços de retransmissão tradicionais simplesmente não podem oferecer.

Como a Nagish é alimentada por IA, ela pode dimensionar para todos os tipos de chamadas: reuniões de trabalho, check-ins familiares, emergências e chamadas de atendimento ao cliente. O aplicativo é projetado para se integrar facilmente à vida regular: os usuários podem manter seu próprio número, obter legendagem em tempo real e usar o mesmo aplicativo em chamadas telefônicas e conversas presenciais. A experiência toda é projetada para reduzir a fricção e fazer com que a comunicação se sinta tão natural e sem interrupções quanto possível.

De que maneiras sua plataforma vai além da transcrição padrão ou legendagem para tornar as interações mais naturais e inclusivas?

Sabemos que a linguagem não é apenas palavras, é também cultura, identidade e nuances. Isso é especialmente verdadeiro para as línguas de sinais, que dependem de expressão facial, emoção e variação regional. Para tornar as interações naturais em vez de mecânicas, colaboramos diretamente com linguistas surdos e especialistas em língua de sinais. Eles ajudam a moldar como nossa IA aprende e se comporta, então a tecnologia é construída com a comunidade, não apenas treinada em seus dados.

Ferramentas de transcrição padrão frequentemente param em “aqui estão as palavras que foram ditas”. Nosso objetivo é apoiar uma conversa real. Estamos implementando Agentes de IA que podem fornecer contexto e gerenciar o fluxo da ligação além de apenas fornecer legendagem ou ler texto em voz alta. Além disso, a Nagish oferece legendagem em tempo real otimizada para o fluxo de conversa, com recursos como fontes ajustáveis, filtragem de spam, transcrição de correio de voz e a capacidade de salvar e revisar transcrições no seu próprio dispositivo quando você escolher. Tudo isso cria uma experiência equivalente à que as pessoas ouvintes têm em ligações telefônicas.

Qual é o papel do processamento de linguagem natural na garantia de que sua plataforma capture não apenas palavras, mas também intenção e tom?

O processamento de linguagem natural e a compreensão de linguagem natural estão no núcleo de como a Nagish captura não apenas o que alguém diz, mas o que eles significam. A fala está cheia de dicas que adicionam contexto, como tom, ênfase e mais, e nossos modelos de PLN são projetados para capturar essas camadas para que os usuários obtenham mais do que uma transcrição básica. O objetivo é tornar as legendas se sentir o mais próximo possível de uma conversa natural.

Porque a Nagish é construída para situações do mundo real, como chamadas médicas, reuniões de trabalho e até emergências, nossos modelos são treinados para lidar com fala rápida, vozes sobrepostas e nuances emocionais. A conscientização do contexto é um grande motivo pelo qual muitas vezes superamos tanto os transcritores humanos quanto as outras ferramentas de IA. O sistema não apenas adivinha as palavras; ele usa o fluxo da conversa para entender a intenção.

Como a Nagish está ajudando os empregadores a construir ambientes de trabalho mais inclusivos, ao mesmo tempo em que aborda as barreiras financeiras e logísticas que limitaram a acessibilidade por muito tempo?

Na Nagish, estamos ajudando os empregadores a construir ambientes de trabalho mais inclusivos, removendo as barreiras financeiras e logísticas que tornaram a acessibilidade difícil de dimensionar. Tradicionalmente, criar um ambiente de trabalho acessível significava confiar em intérpretes agendados, que são essenciais, mas nem sempre práticos para a comunicação do dia a dia, como ligações rápidas, reuniões improvisadas ou tarefas de tempo sensível. Essas limitações criam atrasos, adicionam custos e podem, involuntariamente, excluir os funcionários surdos ou com deficiência auditiva do fluxo de trabalho.

A Nagish está trabalhando para mudar essa dinâmica, dando aos funcionários a capacidade de se comunicar de forma independente e sob demanda. Quando as empresas removem essas barreiras, as pessoas podem participar plenamente, levando a equipes mais fortes, melhor retenção e um ambiente de trabalho mais equitativo.

De acordo com uma pesquisa recente que realizamos, mais de 60% dos respondentes surdos ou com deficiência auditiva disseram que as barreiras de comunicação afetaram suas decisões de carreira e crescimento profissional. É um desafio sério que, mesmo com todo o progresso feito nos últimos anos, mostra que ainda há muito trabalho a ser feito.

Nós habilitamos os empregadores a mudar de acomodações reativas para inclusão proativa, criando ambientes de trabalho onde cada funcionário possa contribuir de forma independente e confiante.

Que tipo de feedback você recebeu de usuários surdos ou com deficiência auditiva, e como isso influenciou a evolução do produto?

Construímos a Nagish com a comunidade surda desde o primeiro dia, e desde então, estamos recebendo uma mistura de entusiasmo, curiosidade e, em casos raros, alguma hesitação, o que é exatamente como deve ser. A comunidade surda é muito consciente e inquisitiva sobre novas tecnologias, e com boa razão. Eles ouviram muitas promessas excessivas no passado, e estamos tentando evitar isso. Estamos priorizando o progresso em relação à perfeição, o que leva tempo – mas nosso objetivo final é a perfeição.

Essa mentalidade centrada na comunidade é reforçada pelo que aprendemos em nosso relatório recente. Após adotar tecnologia assistiva, os usuários mostraram um aumento significativo na independência diária: o número de pessoas que podiam se comunicar de forma independente aumentou de 37% para 60% para os usuários surdos, e de 32,9% para 63% para os usuários com deficiência auditiva. Essa mudança reflete o feedback que ouvimos todos os dias: as pessoas querem ferramentas que tornem a comunicação mais fácil, mais consistente e disponível em momentos em que os intérpretes não estão disponíveis ou quando elas preferem privacidade.

Quando se trata de nossa pesquisa para criar tecnologias de interpretação de língua de sinais melhores, nosso objetivo não é substituir intérpretes humanos ou métodos de comunicação existentes, mas adicionar outra opção, uma ferramenta que torna a acessibilidade mais consistente e disponível em qualquer lugar, a qualquer momento. O feedback dos usuários reforçou a importância de uma “opção adicional”, especialmente em momentos em que um intérprete não está disponível ou quando alguém simplesmente quer privacidade e independência. Para muitos, isso cria situações em que a comunicação teria sido de outra forma inconveniente, atrasada ou inacessível.

Estamos adotando uma abordagem centrada na comunidade para garantir que a tecnologia se sinta autêntica, precisa e respeitosa. Enquanto continuarmos a construir com usuários de língua de sinais, acreditamos que isso será recebido como um passo empoderador à frente.

A privacidade é uma preocupação-chave na tecnologia de acessibilidade — como a Nagish lida com conversas sensíveis e mantém a confiança do usuário?

A privacidade é fundamental para a missão da Nagish de empoderar os usuários surdos ou com deficiência auditiva. A primeira coisa a mencionar é que, com a Nagish, você já pode eliminar a necessidade de um transcritor ao vivo, então, desde o início, já há uma sensação de privacidade que não era possível antes.

Do lado técnico, a Nagish é privada por design. Nós não gravamos ligações e nunca armazenamos transcrições de ligações em nosservidores além da duração de uma ligação. Nós também não usamos nenhum dado de ligação para treinamento. Quando os usuários escolhem salvar transcrições, elas são armazenadas localmente no dispositivo do usuário, em vez de em uma nuvem compartilhada. Recursos como legendagem segura de ponta a ponta e armazenamento local de transcrições estão lá especificamente para proteger conversas altamente sensíveis – seja sobre saúde, emprego ou relacionamentos pessoais.

Como você vê a IA redesenhando a acessibilidade na próxima década, e quais lacunas ainda permanecem para a tecnologia preencher?

Um dos principais problemas com a acessibilidade digital é a falta de educação e observabilidade: os engenheiros não implementam texto alternativo, os designers escolhem cores inacessíveis porque elas parecem boas, e os gerentes de produto tomam decisões de produto para KPIs.

À medida que a IA se envolve mais em cada aspecto do desenvolvimento de produtos, desde engenharia até design e redação, estamos vendo uma abordagem proativa para a acessibilidade. A IA poderia mudar a acessibilidade de algo reativo e “corrigido” em algo proativo e ambiental. Veremos uma nova onda de ferramentas que aumentarão a comunicação em vários contextos – não apenas ligações, mas ambientes de trabalho, salas de aula, transporte e serviços públicos – de modo que as pessoas com deficiência, e as pessoas surdas ou com deficiência auditiva em particular, não precisem constantemente solicitar acomodações; elas simplesmente estarão lá por padrão.

Como você vê a colaboração entre intérpretes humanos e IA evoluindo — um eventualmente substituirá o outro, ou eles se fortalecerão mutuamente?

Os intérpretes de língua de sinais fazem um trabalho incrível. Eles são essenciais para a comunidade, acessibilidade e comunicação. Mas a realidade é que simplesmente não há enough deles. Nos EUA, por exemplo, há mais de 500.000 pessoas que usam a Língua de Sinais Americana como sua língua principal, e apenas cerca de 10.000 intérpretes certificados. Isso significa que um grande número de situações – desde visitas ao médico, reuniões de pais e professores, entrevistas de emprego e mais – frequentemente carecem de comunicação acessível.

Even quando os intérpretes estão disponíveis, há desafios em torno de agendamento, custo e geografia. Alguém que vive em uma área rural teria muito mais dificuldade em obter um intérprete, e esse atraso pode ter consequências reais, especialmente em contextos de saúde ou emergência.

A IA pode ajudar a preencher essa lacuna. O que estamos construindo não é para substituir os intérpretes, mas para complementar seu trabalho e tornar a acessibilidade mais escalável. Pense nisso como uma ferramenta que entra em ação quando um intérprete humano não está disponível.

O Google Translate não substituiu os tradutores profissionais, mas tornou possível pontuar as lacunas de comunicação no dia a dia.

Com os avanços na visão computacional e no processamento de linguagem natural, a IA tem o potencial de começar a interpretar a língua de sinais em tempo real. Isso significa que mais pessoas podem se comunicar instantaneamente, seja por meio de uma ligação de vídeo, um quiosque público ou um serviço de emergência.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Nagish.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.