Entrevistas

Nick Lahoika, Co-Fundador e CEO da Vocal Image – Série de Entrevistas

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nick Lahoika é o co-fundador e CEO da Vocal Image, uma startup de treinamento que ajuda as pessoas a desenvolver habilidades sociais. Um empreendedor serial com mais de 10 anos de experiência em TI e desenvolvimento de negócios, Nick saiu com sucesso de duas ventures antes de criar a Vocal Image. A jornada de Nick é profundamente pessoal; ele foi intimidado por causa da dicção não clara na escola, o que inspirou sua missão de ajudar as pessoas a se comunicar melhor.

Depois de ser forçado a fugir de seu país de origem após a revolução de 2020, Nick chegou à Estônia com um conhecimento mínimo de inglês e usou seu próprio aplicativo para treinar sua voz, garantindo sua primeira rodada de financiamento em apenas seis meses. O vencedor do AWS AI Challenge e do Meta x Hugging Face European AI Startup Program, a Vocal Image recentemente arrecadou uma rodada de financiamento de $3,6 milhões liderada pela Educapital (França) e escalou para mais de $14 milhões em receita anual.

Você fundou a Vocal Image em 2021. O que o inspirou a criar um treinador de habilidades sociais de IA, e qual problema você estava tentando resolver no início?

A ansiedade ao falar foi parte da minha vida por muito tempo. Eu fui intimidado na escola por causa da dicção não clara, e essa experiência realmente ficou comigo. Mais tarde, como estagiário de TI, eu tive que apresentar para clientes de alto nível, e o mesmo medo voltou.

Então, em 2021, após a revolução fracassada na Bielorrússia, eu tive que me mudar para a Europa overnight. De repente, eu estava apresentando para investidores em inglês, uma língua que eu mal falava. Era aterrorizante, mas não havia escolha. Eu passei horas todos os dias praticando minha pronúncia usando uma versão muito inicial do que mais tarde se tornaria a Vocal Image. Levou até semanas para eu aprender a pronunciar o som “V” corretamente para que eu pudesse dizer o nome da minha própria empresa.

Nós começamos com um aplicativo que era basicamente como o YouTube, mas com um gravador de voz e um recurso de comentários. Os usuários podiam assistir a vídeos, praticar repetir as linhas e então ouvir suas próprias gravações. Assistindo a como as pessoas usavam, logo percebemos que elas precisavam desesperadamente de feedback. Nossos usuários iniciais nos mostraram que simplesmente consumir conteúdo não era suficiente para obter resultados reais; elas precisavam de feedback imediato. Tentamos fornecer feedback por meio de treinadores humanos, mas essa abordagem não era escalável, e foi assim que passamos a usar a IA.

Foi minha percepção pessoal que era mais fácil para mim praticar minhas primeiras apresentações com nossa plataforma em vez de com uma pessoa. Não havia pressão, não havia julgamento. Essa liberdade mudou tudo para mim. Uma vez que eu resolvi meu próprio problema, percebi quantas pessoas enfrentam o mesmo problema. Mais de 200 milhões de pessoas lutam com ansiedade ao falar.

Antes da Vocal Image, você dirigia uma academia de dança. Como seu background em movimento e expressão influenciou sua abordagem para a comunicação e a confiança vocal?

Eu não era dançarino; eu na verdade construí um negócio centrado na autoexpressão e nas pessoas. Foi por meio desse trabalho que eu percebi que você pode dizer muito sobre a confiança interna de uma pessoa apenas assistindo-a dançar.

O movimento também desempenha um papel enorme em como você se expressa. A maneira como você se move, sua postura, sua respiração, tudo isso faz parte da comunicação. É onde o treinamento de IA se torna poderoso, pois pode ajudar as pessoas a treinar em todas essas áreas em um só lugar.

Antes, as empresas tinham que contratar vários treinadores diferentes. Um para fala pública, um para linguagem corporal, um para confiança. Agora, com a IA, tudo está conectado. Você pode construir a imagem completa da comunicação, não apenas uma parte dela.

Ao contrário da maioria das ferramentas de comunicação de IA, você decidiu não usar o ChatGPT como base para seu treinador. O que levou a essa decisão?

A histeria em torno do ChatGPT se tornou um grande ponto de inflexão para nós. Quando ele se tornou mainstream, criou um grande pico de confiança na IA, e conseguimos aproveitar isso para fazer as pessoas acreditarem em nossa própria tecnologia.

Mas aqui está a coisa: definitivamente não queríamos usá-lo como nossa base. Nosso objetivo desde o início foi usar nosso modelo único para avaliar os padrões de voz e fala das pessoas. Nós usamos grandes modelos de linguagem como Gemini, Claude e ChatGPT e conhecimentos, dicas e truques da literatura de comunicação em nossos modelos atuais, mas eles não são a base de nosso mecanismo de feedback. A base real de nosso feedback é a entrada humana.

O medo de que o treinamento de IA se sinta robótico é real. Para contrariar isso, criamos uma comunidade dentro da Vocal Image onde os usuários podem se conectar instantaneamente, compartilhar o objetivo comum de melhorar a comunicação e apoiar a jornada uns dos outros. E essa comunidade está constantemente crescendo e melhorando nossa IA.

Pode elaborar sobre como treinar sua IA exclusivamente em vozes humanas difere das abordagens tradicionais baseadas em LLM em termos de resultados e autenticidade?

Nós usamos grandes modelos de linguagem como parte do processo de avaliação e contexto, mas a base real de nosso sistema é o conjunto de dados por trás dele. Nosso modelo central foi treinado em nossa própria comunidade, composta por pessoas que se reuniram especificamente para melhorar suas habilidades de comunicação.

A IA é apenas tão boa quanto os humanos que ela aprende. Nosso conjunto de dados proprietário agora inclui mais de um milhão de vozes humanas únicas, cada uma carregando tom, ritmo e emoção, todos os quais representam a essência real da comunicação.

Seu conjunto de dados inclui mais de um milhão de vozes humanas. Quais desafios você enfrentou ao curar e rotular esse corpus único?

Você não pode confiar igualmente em cada ponto de dados. Alguns usuários avaliam cuidadosamente, outros apenas clicam. Tivemos que projetar um sistema que distingue feedback pensado do ruído. Com o tempo, aprendemos a dar mais peso a usuários com participação consistente e julgamento confiável, enquanto filtramos a entrada aleatória.

A parte mais difícil foi operacional, que envolvia construir um ecossistema de avaliação que recompensa a qualidade sobre a quantidade. É onde nossa comunidade se tornou inestimável. Essas não são usuários aleatórios da internet, são pessoas que genuinamente estão tentando melhorar suas habilidades sociais e ajudar os outros a fazer o mesmo. Todas as avaliações são anônimas, o que ajuda a manter o feedback imparcial e autêntico.

O mecanismo de avaliação “Tinder-like” de comunidade é fascinante — como esse loop de feedback forma o aprendizado contínuo de sua IA?

Cada avaliação, em qualquer idioma, se torna uma pequena peça de inteligência que refina nosso modelo. É um loop de feedback vivo. Quanto mais as pessoas treinam e avaliam, mais inteligente o sistema se torna em reconhecer nuances de fala e emoção, aprendendo como as pessoas realmente percebem confiança, calor ou autoridade em diferentes culturas.

Quais foram as lições principais aprendidas ao desenvolver um modelo de IA centrado em habilidades sociais em vez de competências técnicas?

O principal desafio foi a medição. Não há métrica universal para “confiável” ou “carismático”. Tivemos que criar a nossa própria.

Foi aqui que a Lei dos Grandes Números entrou em cena. Se 100.000 pessoas concordam que uma certa voz soa confiante ou empática, você pode começar a confiar nessa percepção coletiva. Com o tempo, ensinamos nossa IA a prever qualidades subjetivas, coisas que não podem ser avaliadas com um simples certo ou errado. Essa foi a grande inovação: aprender a quantificar o que sempre foi considerado intangível.

Com $14 milhões em receita anual recorrente e uma nova rodada de financiamento de $3,6 milhões, quais são suas principais prioridades para essa próxima fase de crescimento — seja avançando o modelo de IA, expandindo a base de usuários ou aprofundando a experiência da comunidade?

Nossa missão sempre foi centrada no ser humano. Nós ajudamos as pessoas a se comunicar com mais confiança e autenticidade.

A próxima fase é sobre escalar esse impacto globalmente. Estamos expandindo para novos idiomas e geografias, e desenvolvendo novos módulos de habilidades sociais, como negociação, escuta ativa e eloquência.

Muitos usuários dizem que os treinadores de IA se sentem robóticos ou impessoais. Como você garante que a Vocal Image forneça feedback emocionalmente ressonante e ciente do contexto?

Nós nos concentramos na hiperpersonalização. Desde a primeira interação, aprendemos quem você é, incluindo seu sotaque, idade, contexto profissional e padrões de fala. Com o tempo, temos memória, lembrando como você melhorou, onde você luta e qual feedback ressoa mais.

Isso permite que a IA se adapte dinamicamente. A experiência se sente pessoal porque é pessoal. É moldada inteiramente por seus dados e sua jornada, não por um script genérico.

Olhando para o futuro, como você vê o treinamento de habilidades sociais de IA evoluindo à medida que a IA gerativa e emocional continua a amadurecer?

O desenvolvimento humano sempre foi uma mistura de natureza e nutrição. A ciência nos diz que liderança é aproximadamente metade inata, metade aprendida. A metade aprendida costumava ser reservada para executivos que podiam pagar treinadores caros. Por muito tempo, as empresas tiveram que gastar entre $7.000 e $25.000 por ano para treinar um único líder. A IA muda isso.

Além disso, engajar-se com treinadores humanos exigiria reter vários treinadores separados, enquanto um treinador de IA pode substituir todos eles.

Agora, usamos uma pipeline de diferentes modelos para analisar diferentes aspectos da comunicação, mas o futuro é um sistema unificado que avalia e orienta você holisticamente. Essa tecnologia democratizará o crescimento. Você não precisará ser nascido carismático ou ter um grande orçamento corporativo para dominar a comunicação. Você só precisará de curiosidade e acesso, e criar o ambiente para que isso floresça é o que me impulsiona todos os dias.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Vocal Image.

Unite.AI

Nick Lahoika, Co-Fundador e CEO da Vocal Image – Série de Entrevistas

You may like