Entrevistas

Nick Lahoika, Co-Fundador y CEO de Vocal Image – Serie de Entrevistas

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nick Lahoika es el co-fundador y CEO de Vocal Image, una startup de coaching que ayuda a las personas a desarrollar habilidades blandas. Un empresario serial con más de 10 años de experiencia en IT y desarrollo empresarial, Nick salió con éxito de dos ventures antes de crear Vocal Image. El viaje de Nick es profundamente personal; fue intimidado por su dicción poco clara en la escuela, lo que inspiró su misión de ayudar a las personas a comunicarse mejor.

Después de ser obligado a huir de su país de origen tras la revolución de 2020, Nick llegó a Estonia con un dominio mínimo del inglés y utilizó su propia aplicación para entrenar su voz, asegurando su primera ronda de financiación en solo seis meses. El ganador del Desafío de IA de AWS y del Programa de Startups de IA de Meta x Hugging Face en Europa, Vocal Image recientemente recaudó una ronda de financiación de $3.6M liderada por Educapital (Francia) y escaló a más de $14M ARR.

Usted fundó Vocal Image en 2021. ¿Qué lo inspiró a construir un coach de habilidades blandas de IA, y qué problema estaba tratando de resolver al principio?

La ansiedad al hablar fue parte de mi vida durante mucho tiempo. Fui intimidado en la escuela por mi dicción poco clara, y esa experiencia realmente se quedó conmigo. Más tarde, como estudiante de IT, tuve que presentar a clientes de alto nivel, y el mismo miedo regresó.

Luego, en 2021, después de la fallida revolución en Bielorrusia, tuve que mudarme a Europa de la noche a la mañana. De repente, estaba presentando a inversores en inglés, un idioma que apenas hablaba. Era aterrador, pero no había elección. Pasé horas todos los días practicando mi pronunciación utilizando una versión muy temprana de lo que más tarde se convertiría en Vocal Image. Incluso me tomó semanas aprender a pronunciar correctamente el sonido “V” para poder decir el nombre de mi propia empresa.

Comenzamos con una aplicación que era esencialmente como YouTube, pero con un grabador de voz y una función de comentarios integrados. Los usuarios podían ver videos, practicar repitiendo las líneas y luego escuchar sus propias grabaciones. Al ver cómo la utilizaban, nos dimos cuenta rápidamente de que necesitaban comentarios. Nuestros usuarios tempranos nos mostraron que simplemente consumir contenido no era suficiente para obtener resultados reales; necesitaban comentarios inmediatos. Intentamos ofrecer comentarios a través de entrenadores humanos, pero ese enfoque no era escalable, lo que nos llevó a utilizar IA.

Fue mi propia intuición que era más fácil para mí practicar mis primeras presentaciones con nuestra plataforma en lugar de con una persona. No había presión, no había juicio. Esa libertad cambió todo para mí. Una vez que resolví mi propio problema, me di cuenta de cuántas personas enfrentan el mismo problema. Más de 200 millones de personas luchan con la ansiedad al hablar.

Antes de Vocal Image, usted dirigía un estudio de danza. ¿Cómo influyó su experiencia en movimiento y expresión en su enfoque de la comunicación y la confianza vocal?

No era bailarín; en realidad, construí un negocio centrado en la autoexpresión y las personas. Fue a través de ese trabajo que me di cuenta de que podías decir mucho sobre la confianza interna de una persona solo observándola bailar.

El movimiento también juega un papel enorme en cómo te expresas. La forma en que te mueves, tu postura, tu respiración, todo es parte de la comunicación. Eso es donde la capacitación de IA se vuelve poderosa, ya que puede ayudar a las personas a entrenar en todas esas áreas en un solo lugar.

Antes, las empresas tenían que contratar a varios entrenadores diferentes. Uno para hablar en público, uno para lenguaje corporal, uno para confianza. Ahora, con IA, todo está conectado. Puedes construir la imagen completa de la comunicación, no solo una parte de ella.

A diferencia de la mayoría de las herramientas de comunicación de IA, usted decidió no utilizar ChatGPT como base para su entrenador. ¿Qué lo llevó a esa decisión?

El entusiasmo por ChatGPT se convirtió en un punto de inflexión importante para nosotros. Cuando se volvió mainstream, creó un aumento masivo en la confianza en la IA, y pudimos aprovechar eso para que la gente creyera en nuestra propia tecnología.

Pero aquí está la cosa: definitivamente no queríamos utilizarlo como nuestra base. Nuestro objetivo desde el principio fue utilizar nuestro modelo único para evaluar los patrones de voz y habla de las personas. Utilizamos grandes modelos de lenguaje como Gemini, Claude y ChatGPT, y conocimientos, consejos y trucos de la literatura de comunicación en nuestros modelos actuales, pero no son la base de nuestro mecanismo de comentarios. La base real de nuestros comentarios es la entrada humana.

El miedo a que la capacitación de IA se sienta robótica es real. Para contrarrestar eso, creamos una comunidad dentro de Vocal Image donde los usuarios pueden conectarse instantáneamente, compartir el objetivo común de mejorar su comunicación y apoyar el viaje de los demás. Y esta comunidad sigue creciendo y mejorando nuestra IA.

¿Puede elaborar sobre cómo entrenar su IA exclusivamente con voces humanas difiere de los enfoques tradicionales basados en LLM en términos de resultados y autenticidad?

Utilizamos grandes modelos de lenguaje como parte del proceso de evaluación y contexto, pero la base real de nuestro sistema es el dato detrás de él. Nuestro modelo central se entrenó en nuestra propia comunidad, compuesta por personas que se unieron específicamente para mejorar sus habilidades de comunicación.

La IA es tan buena como los humanos de los que aprende. Nuestro conjunto de datos propietario ahora incluye más de un millón de voces humanas únicas, cada una con tono, ritmo y emoción, todo lo cual representa la esencia real de la comunicación.

Su conjunto de datos incluye más de un millón de voces humanas. ¿Qué desafíos enfrentó al curar y etiquetar un corpus tan único?

No puedes confiar igualmente en cada punto de datos. Algunos usuarios califican con cuidado, otros solo hacen clic a través. Teníamos que diseñar un sistema que distinguiera los comentarios reflexivos del ruido. Con el tiempo, aprendimos a dar más peso a los usuarios con participación consistente y juicio confiable, mientras filtrábamos la entrada aleatoria.

La parte más difícil fue operativa, que involucraba construir un ecosistema de calificación que recompensara la calidad sobre la cantidad. Ahí es donde nuestra comunidad se volvió invaluable. Estas no son usuarios aleatorios de Internet, son personas que genuinamente tratan de mejorar sus habilidades blandas y ayudar a los demás a hacer lo mismo. Todas las calificaciones son anónimas, lo que ayuda a mantener los comentarios imparciales y auténticos.

El mecanismo de evaluación “similar a Tinder” impulsado por la comunidad es fascinante — ¿cómo moldea este bucle de comentarios el aprendizaje continuo de su IA?

Cada calificación, en cada idioma, se convierte en una pequeña pieza de inteligencia que refina nuestro modelo. Es un bucle de comentarios vivo. Cuanto más entrenan y evalúan las personas, más inteligente se vuelve el sistema para reconocer matices del habla y la emoción, aprendiendo cómo las personas realmente perciben la confianza, la calidez o la autoridad en diferentes culturas.

¿Cuáles fueron las lecciones clave aprendidas mientras se desarrollaba un modelo de IA centrado en habilidades blandas en lugar de competencias técnicas?

El desafío principal fue la medición. No hay una métrica universal para “de confianza” o “carismático”. Teníamos que crear la nuestra.

Aquí es donde entró en juego la Ley de los Grandes Números . Si 100,000 personas están de acuerdo en que una determinada voz suena confiada o empática, puedes comenzar a confiar en esa percepción colectiva. Con el tiempo, enseñamos a nuestra IA a predecir cualidades subjetivas, cosas que no pueden calificarse con un simple correcto o incorrecto. Eso fue el avance: aprender a cuantificar lo que siempre se consideró intangible.

Con $14 millones en ingresos anuales recurrentes y una nueva ronda de financiación de $3.6 millones, ¿cuáles son sus principales prioridades para esta próxima etapa de crecimiento — ya sea avanzar en el modelo de IA, expandir la base de usuarios o profundizar en la experiencia comunitaria?

Nuestra misión siempre ha sido centrada en el ser humano. Ayudamos a las personas a comunicarse con más confianza y autenticidad.

La próxima fase se trata de escalar ese impacto a nivel global. Estamos expandiéndonos a nuevos idiomas y geografías, y desarrollando nuevos módulos de habilidades blandas como negociación, escucha activa y elocuencia.

Muchos usuarios dicen que los entrenadores de IA se sienten robóticos o impersonales. ¿Cómo garantiza que Vocal Image entregue comentarios que resuenan emocionalmente y son conscientes del contexto?

Nos centramos en la hiperpersonalización. Desde la primera interacción, aprendemos quién eres, incluyendo tu acento, edad, contexto profesional y patrones de habla. Con el tiempo, tenemos memoria, recordando cómo has mejorado, dónde luchas y qué comentarios resuenan más.

Eso permite que la IA se adapte dinámicamente. La experiencia se siente personal porque es personal. Está moldeada enteramente por tus datos y tu viaje, no por un guión genérico.

Mirando hacia adelante, ¿cómo ve la evolución de la capacitación de habilidades blandas de IA a medida que la IA generativa y emocional siguen madurando?

El desarrollo humano siempre ha sido una mezcla de naturaleza y crianza. La ciencia nos dice que el liderazgo es aproximadamente la mitad innato, la mitad aprendido. La mitad aprendida solía estar reservada para los ejecutivos que podían costear entrenadores caros. Durante mucho tiempo, las empresas han tenido que gastar entre $7,000 y $25,000 al año para capacitar a un solo líder. La IA cambia eso.

Además, interactuar con entrenadores humanos requeriría retener a muchos entrenadores separados, mientras que un entrenador de IA puede reemplazar a todos ellos.

En este momento, utilizamos una tubería de diferentes modelos para analizar diferentes aspectos de la comunicación, pero el futuro es un sistema unificado que evalúa y guía de manera holística. Esta tecnología democratizará el crecimiento. No necesitarás ser carismático por naturaleza o tener un gran presupuesto corporativo para dominar la comunicación. Solo necesitarás curiosidad y acceso, y crear el entorno para que eso florezca es lo que me impulsa todos los días.

Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Vocal Image.

Unite.AI

Nick Lahoika, Co-Fundador y CEO de Vocal Image – Serie de Entrevistas

You may like