Inteligência artificial

A Modulate apresenta modelos de escuta em conjunto, redefinindo a forma como a IA compreende a voz humana.

Publicado 20 de janeiro de 2026

Antoine Tardif, CEO e fundador da Unite.AI

A inteligência artificial avançou rapidamente, mas uma área permanece consistentemente difícil: compreender verdadeiramente a voz humana. Não apenas as palavras ditas, mas a emoção por trás delas, a intenção moldada pelo tom e ritmo, e os sinais sutis que distinguem uma conversa amigável de frustração, engano ou maldade. Hoje, Modular anunciaram um grande avanço com a introdução do Modelo de Escuta em Conjunto (ELM), uma nova arquitetura de IA projetada especificamente para a compreensão de voz no mundo real.

Juntamente com o anúncio da pesquisa, a Modulate revelou Velma 2.0A Velma 2.0, a primeira implementação em produção de um modelo de escuta em conjunto, supera os principais modelos básicos em precisão conversacional, operando a uma fração do custo – uma afirmação notável em um momento em que as empresas estão reavaliando a sustentabilidade de implementações de IA em larga escala.

Por que a voz tem sido um desafio para a IA?

A maioria dos sistemas de IA que analisam a fala segue uma abordagem familiar. O áudio é convertido em texto, e essa transcrição é então processada por um modelo de linguagem complexo. Embora eficaz para transcrição e sumarização, esse processo remove grande parte do que torna a voz significativa.

O tom de voz, a inflexão emocional, a hesitação, o sarcasmo, a sobreposição de falas e o ruído de fundo carregam um contexto importante. Quando a fala é transformada em texto, essas dimensões se perdem, resultando frequentemente em... má interpretação da intenção ou sentimento. Isso se torna especialmente problemático em ambientes como suporte ao cliente, detecção de fraudes, jogos online e comunicações baseadas em IA, onde as nuances afetam diretamente os resultados.

Segundo a Modulate, essa limitação é arquitetônica, e não relacionada aos dados. Grandes modelos de linguagem são otimizados para previsão de texto, não para integrar múltiplos sinais acústicos e comportamentais em tempo real. Os Modelos de Escuta em Conjunto (Ensemble Listening Models) foram criados para suprir essa lacuna.

O que é um modelo de escuta em conjunto?

Um Modelo de Escuta Conjunta não é uma única rede neural treinada para fazer tudo ao mesmo tempo. Em vez disso, é um sistema coordenado composto por muitos modelos especializados, cada um responsável por analisar uma dimensão diferente de uma interação vocal.

Dentro de um ELM (Modelo de Linguagem Emocional), modelos separados examinam emoção, estresse, indicadores de engano, identidade do falante, ritmo, prosódia, ruído de fundo e possíveis vozes sintéticas ou imitadas. Esses sinais são sincronizados por meio de uma camada de orquestração alinhada ao tempo, que produz uma interpretação unificada e explicável do que está acontecendo em uma conversa.

Essa divisão explícita de trabalho é fundamental para a abordagem ELM. Em vez de depender de um único modelo massivo para inferir significado implicitamente, os Modelos de Escuta em Conjunto (ELM) combinam múltiplas perspectivas direcionadas, melhorando tanto a precisão quanto a transparência.

Dentro da Velma 2.0

Velma 2.0 representa uma evolução substancial dos sistemas anteriores da Modulate baseados em conjuntos. Utiliza mais de 100 modelos de componentes que trabalham em conjunto em tempo real, estruturados em cinco camadas analíticas.

A primeira camada concentra-se no processamento básico de áudio, determinando o número de falantes, a duração da fala e as pausas. Em seguida, vem a extração do sinal acústico, que identifica estados emocionais, níveis de estresse, indícios de engano, marcadores de voz sintética e ruído ambiental.

A terceira camada avalia a intenção percebida, distinguindo entre elogios sinceros e comentários sarcásticos ou hostis. A modelagem comportamental rastreia a dinâmica da conversa ao longo do tempo, sinalizando frustração, confusão, discurso ensaiado ou tentativas de engenharia social. A camada final, a análise conversacional, traduz essas informações em eventos relevantes para a empresa, como clientes insatisfeitos, violações de políticas, possíveis fraudes ou agentes de IA com mau funcionamento.

A Modulate relata que o Velma 2.0 compreende o significado e a intenção da conversação com cerca de 30% mais precisão do que as principais abordagens baseadas em LLM, além de ser de 10 a 100 vezes mais econômico em larga escala.

Da moderação de jogos à inteligência empresarial

As origens dos Modelos de Escuta em Conjunto remontam aos primeiros trabalhos da Modulate com jogos online. Títulos populares como Call of Duty e Grand Theft Auto Online geram alguns dos ambientes de voz mais desafiadores imagináveis. As conversas são rápidas, ruidosas, carregadas de emoção e repletas de gírias e referências contextuais.

Separar brincadeiras e provocações de assédio genuíno em tempo real exige muito mais do que transcrição. Enquanto a Modulate operava seu sistema de moderação de voz, ToxModNameGradualmente, a equipe foi reunindo conjuntos de modelos cada vez mais complexos para capturar essas nuances. A coordenação de dezenas de modelos especializados tornou-se essencial para alcançar a precisão necessária, o que acabou levando a equipe a formalizar a abordagem em uma nova estrutura arquitetônica.

Velma 2.0 generaliza essa arquitetura para além dos jogos. Hoje, ela alimenta a plataforma empresarial da Modulate, analisando centenas de milhões de conversas em diversos setores para identificar fraudes, comportamentos abusivos, insatisfação do cliente e atividades anômalas de IA.

Um desafio aos modelos de fundação

O anúncio surge num momento em que as empresas estão a reavaliar as suas estratégias de IA. Apesar do investimento maciço, Uma grande porcentagem das iniciativas de IA não chega à produção. ou gerar valor duradouro. Os obstáculos comuns incluem alucinações, custos crescentes de inferência, tomada de decisões opaca e dificuldade em integrar insights de IA em fluxos de trabalho operacionais.

Os Modelos de Escuta em Conjunto (ELMs) abordam essas questões diretamente. Ao se basearem em muitos modelos menores e específicos, em vez de um único sistema monolítico, os ELMs são menos dispendiosos de operar, mais fáceis de auditar e mais interpretáveis. Cada resultado pode ser rastreado até sinais específicos, permitindo que as organizações entendam por que uma conclusão foi alcançada.

Esse nível de transparência é especialmente importante em ambientes regulamentados ou de alto risco, onde decisões opacas são inaceitáveis. A Modulate posiciona os ELMs não como um substituto para grandes modelos de linguagem, mas como uma arquitetura mais apropriada para inteligência de voz de nível empresarial.

Além da conversão de fala em texto

Um dos aspectos mais inovadores do Velma 2.0 é sua capacidade de analisar como algo é dito, e não apenas o que é dito. Isso inclui a detecção de vozes sintéticas ou imitadas, uma preocupação crescente à medida que a tecnologia de geração de voz se torna mais acessível.

Com o aprimoramento da clonagem de voz, as empresas enfrentam riscos crescentes relacionados a fraudes, falsificação de identidade e engenharia social. Ao incorporar a detecção de voz sintética diretamente em seu conjunto de tecnologias, o Velma 2.0 trata a autenticidade como um sinal essencial, e não como um recurso opcional.

A modelagem comportamental do sistema também possibilita insights proativos. Ele consegue identificar quando um orador está lendo um roteiro, quando a frustração está aumentando ou quando uma interação está se encaminhando para um conflito. Essas capacidades permitem que as organizações intervenham de forma mais precoce e eficaz.

Uma nova direção para a IA empresarial

Modular O modelo de escuta em conjunto é descrito como uma nova categoria de arquitetura de IA, distinta tanto dos fluxos de processamento de sinais tradicionais quanto dos grandes modelos de base. A ideia central é que as interações humanas complexas são melhor compreendidas por meio da especialização coordenada, em vez da escalabilidade por força bruta.

À medida que as empresas exigem sistemas de IA responsáveis, eficientes e alinhados às necessidades operacionais reais, os Modelos de Escuta em Conjunto apontam para um futuro onde a inteligência é construída a partir de muitos componentes focados. Com o Velma 2.0 já em produção, a Modulate aposta que essa mudança arquitetônica terá repercussão muito além da moderação de voz e do suporte ao cliente.

Em um setor que busca alternativas para caixas-pretas cada vez maiores, os Modelos de Escuta em Conjunto sugerem que o próximo grande avanço na IA pode vir de uma escuta mais atenta, e não simplesmente de um processamento mais agressivo.

Tópicos relacionados:ELM Modelo de Escuta em Conjunto escuta Modular voz

Antoine Tardif, CEO e fundador da Unite.AI

Antoine é um líder visionário e sócio fundador da Unite.AI, movido por uma paixão inabalável por moldar e promover o futuro da IA e da robótica. Um empreendedor em série, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego delirando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele se dedica a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Valores Mobiliários.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.

Unir-se.AI