Entrevistas
Jean-Louis Quéguiner, Fundador e CEO da Gladia – Série de Entrevistas

Jean-Louis Quéguiner é o Fundador e CEO da Gladia. Anteriormente, ele atuou como Vice-Presidente de Grupo de Dados, IA e Computação Quântica da OVHcloud, um dos principais provedores de nuvem da Europa. Ele possui um Mestrado em Inteligência Artificial Simbólica pela Universidade de Québec, no Canadá, e pela Arts et Métiers ParisTech, em Paris. Ao longo de sua carreira, ele ocupou cargos significativos em várias indústrias, incluindo análise de dados financeiros, aplicações de aprendizado de máquina para publicidade digital em tempo real e desenvolvimento de APIs de IA de fala.
Gladia fornece soluções avançadas de transcrição de áudio e soluções de IA em tempo real para integração sem interrupções em produtos de várias indústrias, idiomas e pilhas de tecnologia. Ao otimizar modelos de IA de ponta e modelos de IA gerativos, ela garante processamento de fala e linguagem preciso e sem atrasos. A plataforma da Gladia também permite a extração em tempo real de insights e metadados de chamadas e reuniões, apoiando casos de uso empresarial importantes, como assistência de vendas e suporte ao cliente automatizado.
O que o inspirou a enfrentar os desafios da tecnologia de fala-para-texto (STT) e quais lacunas você viu no mercado?
Quando fundei a Gladia, o objetivo inicial era amplo – uma empresa de IA que tornaria a tecnologia complexa acessível. Mas à medida que nos aprofundamos, ficou claro que a tecnologia de voz era a área mais quebrada e, no entanto, a mais crítica para se concentrar.
A voz é central em nossas vidas diárias, e a maior parte de nossa comunicação ocorre por meio da fala. No entanto, as ferramentas disponíveis para os desenvolvedores trabalharem com dados de voz eram inadequadas em termos de velocidade, precisão e preço – especialmente em vários idiomas.
Eu queria consertar isso, desempacotar a complexidade da tecnologia de voz e reembalá-la em algo simples, eficiente, poderoso e acessível. Os desenvolvedores não devem se preocupar com as complexidades dos modelos de IA ou as nuances do comprimento de contexto no reconhecimento de fala. Meu objetivo era criar uma API de fala-para-texto de nível empresarial que funcionasse de forma transparente, independentemente do modelo ou tecnologia subjacente – uma solução verdadeiramente plug-and-play.
Quais são alguns dos desafios únicos que você enfrentou ao construir uma solução de transcrição para uso empresarial?
Quando se trata de reconhecimento de fala, a velocidade e a precisão – os dois principais indicadores de desempenho neste campo – são inversamente proporcionais por design. Isso significa que melhorar um comprometerá o outro, pelo menos em alguma medida. O fator de custo, em grande parte, resulta da escolha do provedor entre velocidade e qualidade.
Ao construir a Gladia, nosso objetivo era encontrar o equilíbrio perfeito entre esses dois fatores, garantindo que a tecnologia permaneça acessível a startups e PMEs. No processo, também percebemos que os modelos de ASR fundamentais, como o Whisper da OpenAI, com o qual trabalhamos extensivamente, são tendenciosos, inclinando-se fortemente para o inglês devido aos dados de treinamento, o que deixa muitos idiomas sub-representados.
Portanto, além de resolver o tradeoff entre velocidade e precisão, foi importante para nós – como uma equipe multilíngue europeia – otimizar e ajustar finamente nossos modelos principais para construir uma API global verdadeiramente que ajude os negócios a operar em vários idiomas.
Como a Gladia se diferencia no mercado de transcrição de IA lotado? O que torna seu Whisper-Zero ASR único?
Nosso novo motor em tempo real (Gladia Real Time) alcança uma latência de 300 ms líder no setor. Além disso, é capaz de extrair insights de uma chamada ou reunião com os chamados “adicionais de inteligência de áudio” ou recursos, como reconhecimento de entidades nomeadas (NER) ou análise de sentimento.
Até onde sabemos, poucos concorrentes são capazes de fornecer transcrição e insights com uma latência tão baixa (menos de 1s de ponta a ponta) – e fazer tudo isso com precisão em idiomas outros que não o inglês. Nosso suporte a idiomas se estende a mais de 100 idiomas hoje.
Também damos ênfase especial em tornar o produto verdadeiramente agnóstico em relação à pilha de tecnologia. Nossa API é compatível com todas as pilhas de tecnologia e protocolos de telefonia existentes, incluindo SIP, VoIP, FreeSwitch e Asterisk. Os protocolos de telefonia são especialmente complexos para integrar, então acreditamos que esse aspecto do produto pode trazer um valor tremendo para o mercado.
As alucinações nos modelos de IA são uma preocupação significativa, especialmente na transcrição em tempo real. Você pode explicar o que são alucinações no contexto da STT e como a Gladia aborda esse problema?
As alucinações geralmente ocorrem quando o modelo falta conhecimento ou não tem contexto suficiente sobre o tópico. Embora os modelos possam produzir saídas personalizadas para uma solicitação, eles só podem referenciar informações que existiam no momento do treinamento e que podem não estar atualizadas. O modelo criará respostas coerentes preenchendo lacunas com informações que soam plausíveis, mas são incorretas.
Embora as alucinações tenham se tornado conhecidas no contexto dos LLMs primeiro, elas ocorrem com modelos de reconhecimento de fala – como o Whisper ASR, um modelo líder no campo desenvolvido pela OpenAI – também. As alucinações do Whisper são como as dos LLMs devido a uma arquitetura semelhante, então é um problema que concerne aos modelos gerativos, que são capazes de prever as palavras que seguem com base no contexto geral. De certa forma, eles “inventam” a saída. Essa abordagem pode ser contrastada com arquiteturas de ASR mais tradicionais e baseadas em acústica, que combinam a entrada de som com a saída de uma maneira mais mecânica.
Como resultado, você pode encontrar palavras em uma transcrição que não foram realmente ditas, o que é claramente problemático, especialmente em campos como a medicina, onde um erro desse tipo pode ter consequências graves.
Existem vários métodos para gerenciar e detectar alucinações. Uma abordagem comum é usar um sistema de geração aumentada por recuperação (RAG), que combina as capacidades gerativas do modelo com um mecanismo de recuperação para verificar fatos. Outro método envolve empregar uma abordagem de “cadeia de pensamento”, onde o modelo é guiado por uma série de etapas ou pontos de verificação predefinidos para garantir que ele permaneça em um caminho lógico.
Outra estratégia para detectar alucinações envolve usar sistemas que avaliam a veracidade da saída do modelo durante o treinamento. Existem benchmarks projetados especificamente para avaliar alucinações, que envolvem comparar diferentes respostas candidatas geradas pelo modelo e determinar qual é a mais precisa.
Nós, na Gladia, experimentamos uma combinação de técnicas ao construir o Whisper-Zero, nosso ASR proprietário que remove virtualmente todas as alucinações. Ele provou resultados excelentes na transcrição assíncrona e estamos atualmente otimizando-o para tempo real para alcançar a mesma fidelidade de informações de 99,9%.
A tecnologia de STT deve lidar com uma ampla gama de complexidades, como sotaques, ruído e conversas multilíngues. Como a Gladia aborda esses desafios para garantir alta precisão?
A detecção de idioma no ASR é uma tarefa extremamente complexa. Cada falante tem uma assinatura vocal única, que chamamos de recursos. Analisando o espectro vocal, algoritmos de aprendizado de máquina podem realizar classificações, usando os Coeficientes Cepstrais de Frequência de Mel (MFCC) para extrair as principais características de frequência.
O MFCC é um método inspirado na percepção auditiva humana. Ele faz parte do campo “psicoacústico”, que se concentra em como percebemos o som. Ele enfatiza as frequências mais baixas e usa técnicas como decomposição de Fourier normalizada para converter áudio em um espectro de frequência.
No entanto, essa abordagem tem uma limitação: ela é baseada puramente em acústica. Então, se você fala inglês com um sotaque forte, o sistema pode não entender o conteúdo, mas julgar com base na prosódia (ritmo, estresse, entonação).
Aqui é onde entra a solução inovadora da Gladia. Desenvolvemos uma abordagem híbrida que combina recursos psicoacústicos com compreensão de conteúdo para detecção de idioma dinâmica.
Nosso sistema não apenas ouve como você fala, mas também entende o que você está dizendo. Essa abordagem dupla permite a troca de código eficiente e não deixa sotaques fortes serem mal representados/mal entendidos.
A troca de código – que é um de nossos principais diferenciais – é uma característica particularmente importante no tratamento de conversas multilíngues. Os falantes podem alternar entre idiomas no meio de uma conversa (ou até no meio de uma frase), e a capacidade do modelo de transcrever com precisão em tempo real, apesar da troca, é crítica.
A API da Gladia é única em sua capacidade de lidar com a troca de código com tantos pares de idiomas e com um alto nível de precisão e se sai bem mesmo em ambientes barulhentos, conhecidos por reduzir a qualidade da transcrição.
A transcrição em tempo real requer latência ultra-baixa. Como sua API alcança menos de 300 milissegundos de latência, mantendo a precisão?
Manter a latência abaixo de 300 milissegundos, mantendo a precisão, requer uma abordagem multifacetada que combina expertise em hardware, otimização de algoritmos e design arquitetônico.
A IA em tempo real não é como computação tradicional – está fortemente ligada ao poder e à eficiência dos GPGPUs. Eu tenho trabalhado nesse espaço por quase uma década, liderando a divisão de IA da OVHCloud (o maior provedor de nuvem da UE), e aprendi na prática que é sempre sobre encontrar o equilíbrio certo: quanto poder de hardware você precisa, quanto isso custa e como você ajusta os algoritmos para trabalhar de forma transparente com esse hardware.
O desempenho em tempo real da IA vem de alinhar efetivamente nossos algoritmos com as capacidades do hardware, garantindo que cada operação maximize o throughput, minimizando os atrasos.
Mas não é apenas a IA e o hardware. A arquitetura do sistema desempenha um papel importante também, especialmente a rede, que pode realmente impactar a latência. Nosso CTO, que tem profunda expertise em design de rede de baixa latência de sua época na Sigfox (um pioneiro em IoT), otimizou nossa configuração de rede para cortar milissegundos valiosos.
Então, é realmente uma mistura de todos esses fatores – escolhas inteligentes de hardware, algoritmos otimizados e design de rede – que nos permite alcançar consistentemente latência abaixo de 300 ms sem comprometer a precisão.
A Gladia vai além da transcrição com recursos como diarização de falante, análise de sentimento e transcrições com carimbo de data e hora. Quais são algumas aplicações inovadoras que você viu seus clientes desenvolverem usando essas ferramentas?
A STT desbloqueia uma ampla gama de aplicações para plataformas em vários setores, e tem sido incrível ver quantas empresas verdadeiramente pioneiras surgiram nos últimos dois anos, utilizando LLMs e nossa API para construir produtos de ponta competitivos. Aqui estão alguns exemplos:
- Nota inteligente: Muitos clientes estão construindo ferramentas para profissionais que precisam capturar e organizar informações de reuniões de trabalho, palestras de estudantes ou consultas médicas de forma rápida. Com a diarização de falante, nossa API pode identificar quem disse o quê, tornando fácil seguir conversas e atribuir itens de ação. Combinado com transcrições com carimbo de data e hora, os usuários podem pular diretamente para momentos específicos em uma gravação, economizando tempo e garantindo que nada se perca na tradução.
- Habilitação de vendas: No mundo das vendas, a velocidade e as insights certos são tudo. As equipes estão usando nosso recurso de análise de sentimento para obter insights em tempo real sobre como os prospects respondem durante chamadas ou demonstrações. Além disso, as transcrições com carimbo de data e hora ajudam as equipes a revisitar partes-chave de uma conversa para refinar seu discurso ou abordar preocupações do cliente de forma mais eficaz. Para este caso de uso em particular, a NER também é fundamental para identificar nomes, detalhes de empresas e outras informações que podem ser extraídas de chamadas de vendas para alimentar o CRM automaticamente.
- Assistência ao call center: As empresas no espaço de centro de contrato estão usando nossa API para fornecer assistência ao vivo aos agentes, bem como sinalizar o sentimento do cliente durante as chamadas. A diarização de falante garante que as coisas ditas sejam atribuídas à pessoa certa, enquanto as transcrições com carimbo de data e hora permitem que os supervisores revisem momentos críticos ou questões de conformidade rapidamente. Isso não apenas melhora a experiência do cliente – com uma melhor taxa de resolução e monitoramento de qualidade – mas também aumenta a produtividade e a satisfação dos agentes.
Você pode discutir o papel de vocabulários personalizados e reconhecimento de entidades na melhoria da confiabilidade da transcrição para usuários empresariais?
Muitas indústrias dependem de terminologia especializada, nomes de marcas e nuances linguísticas únicas. A integração de vocabulário personalizado permite que a solução de STT se adapte a essas necessidades específicas, o que é crucial para capturar nuances contextuais e entregar saídas que reflitam com precisão as necessidades do negócio. Por exemplo, permite criar uma lista de palavras específicas do domínio, como nomes de marcas, em um idioma específico.
Por que é útil: Adaptar a transcrição para o setor específico permite minimizar erros nos transcritos, alcançando uma melhor experiência do usuário. Esse recurso é especialmente crítico em campos como medicina ou finanças.
O reconhecimento de entidades nomeadas (NER) extrai e identifica informações-chave de dados de áudio não estruturados, como nomes de pessoas, organizações, locais e mais. Um desafio comum com dados não estruturados é que essas informações críticas não estão prontamente disponíveis – elas estão enterradas dentro do transcrição.
Para resolver isso, a Gladia desenvolveu uma abordagem estruturada de Extração de Dados-Chave (KDE). Ao aproveitar as capacidades gerativas de sua arquitetura baseada em Whisper – semelhante aos LLMs – a KDE da Gladia captura o contexto para identificar e extrair informações relevantes diretamente.
Esse processo pode ser ainda mais aprimorado com recursos como vocabulário personalizado e NER, permitindo que as empresas populem os CRMs com dados-chave rapidamente e de forma eficiente.
Na sua opinião, como a transcrição em tempo real está transformando indústrias como suporte ao cliente, vendas e criação de conteúdo?
A transcrição em tempo real está redefinindo essas indústrias de maneira profunda, impulsionando ganhos de produtividade incríveis, combinados com benefícios comerciais tangíveis.
Primeiro, a transcrição em tempo real é um jogo-changer para as equipes de suporte. A assistência em tempo real é fundamental para melhorar a taxa de resolução, graças a respostas mais rápidas, agentes mais inteligentes e melhores resultados (em termos de NSF, tempos de manipulação, etc.). À medida que os sistemas de ASR melhoram cada vez mais no tratamento de idiomas não ingleses e realizam traduções em tempo real, os centros de contato podem alcançar uma experiência de cliente global a margens mais baixas.
Em vendas, a velocidade e as insights certos são tudo. Da mesma forma que acontece com os agentes de call center, a transcrição em tempo real equipa os vendedores com os insights certos no momento certo, permitindo que eles se concentrem no que mais importa para fechar negócios.
Para os criadores, a transcrição em tempo real talvez seja menos relevante hoje, mas ainda cheia de potencial, especialmente quando se trata de legendagem ao vivo e tradução durante eventos de mídia. A maioria de nossos clientes de mídia atuais ainda prefere a transcrição assíncrona, pois a velocidade é menos crítica lá, enquanto a precisão é fundamental para aplicações como edição de vídeo com carimbo de data e hora e geração de legendas.
A transcrição de IA em tempo real parece ser uma tendência em crescimento. Para onde você vê essa tecnologia indo nos próximos 5-10 anos?
Sinto que esse fenômeno, que agora chamamos de IA em tempo real, estará em todos os lugares. Basicamente, o que realmente nos referimos aqui é a capacidade transparente das máquinas de interagir com as pessoas, da mesma forma como os humanos já interagem entre si.
E se você olhar para qualquer filme de Hollywood (como Ela) ambientado no futuro, você nunca verá alguém interagindo com sistemas inteligentes via teclado. Para mim, isso serve como a prova definitiva de que, na imaginação coletiva da humanidade, a voz sempre será a principal forma como interagimos com o mundo ao nosso redor.
A voz, como o principal vetor para agregar e compartilhar o conhecimento humano, faz parte da cultura e da história humana por muito mais tempo do que a escrita. Então, a escrita assumiu o lugar porque permitiu que preservássemos nosso conhecimento de forma mais eficaz do que confiar nos anciãos da comunidade para serem os guardiões de nossas histórias e sabedoria.
Os sistemas de IA gerativos, capazes de entender a fala, gerar respostas e armazenar nossas interações, trouxeram algo completamente novo para o espaço. É o melhor dos dois mundos e o melhor da humanidade, realmente. Ele nos dá esse poder e energia únicos de comunicação por voz, com o benefício da memória, que anteriormente apenas a mídia escrita poderia garantir para nós. É por isso que acredito que estará em todos os lugares – é o sonho coletivo definitivo.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Gladia.












