Entrevistas

Jaime Bosch, CEO, Voicemod – Serie de entrevistas

Publicado 10 de Septiembre de 2021

Antoine Tardif, Director ejecutivo y fundador de Unite.AI

Jaime Bosch es el director general de Voicemod un software de cambio de voz gratuito para jugadores, creadores de contenido y vtubers.

¿Podría compartir la historia de génesis detrás de Voicemod?

Como el octavo de 8 niños, crecí en un entorno donde pude desarrollar plenamente mi espíritu emprendedor desde muy joven, ya que siempre tuve el apoyo de hermanos con ideas similares.

Como tal, era solo cuestión de tiempo que dos de mis hermanos y yo, todos compartiendo un profundo amor por la tecnología y la música, jugáramos con la idea de crear una aplicación que combinara nuestros intereses. Así que, en 2009, hicimos exactamente eso y creamos una aplicación de música B2C como una actividad paralela al negocio de estudio que dirigíamos como nuestra ocupación principal.

Como era un proyecto paralelo, experimentamos mucho con cosas como la modulación de voz, lo que nos inspiró a crear algo completamente nuevo y novedoso. El resultado fue lo que llamamos la "Experiencia Voicemod", una forma completamente nueva de experimentar la propia voz, que se convirtió en el motor de la evolución de la aplicación. Independientemente de quién probara nuestro software, siempre encontrábamos las mismas reacciones: risa y asombro al escucharse de una manera completamente diferente.

Esto nos llevó a remodelar nuestra visión del producto, en algo que finalmente podría evolucionar la conexión humana a través del sonido. Así que trajimos la experiencia del móvil a la PC, donde fue recogida instantáneamente por la explosión de la escena de juegos y transmisión, y el resto es, como se dice, "historia".

Voicemod fue inicialmente un proyecto paralelo. ¿Cuándo te diste cuenta de que querías ir con todo?

Al principio, mis hermanos y yo teníamos un estudio juntos llamado 2taptap. Cuando se nos ocurrió la idea de crear Voicemod, al principio era solo un proyecto secundario divertido, pero con el tiempo, vimos cómo la gente interactuaba con él y el potencial que tenía la tecnología. Hasta entonces, la mayoría de las tecnologías de cambio de voz eran asincrónicas, así que poder experimentar ser otra persona en tiempo real era una novedad para muchos. Sin embargo, el momento decisivo para nosotros fue darnos cuenta de que la gente usaba nuestra tecnología no solo para divertirse, sino para moldear su forma de expresarse en línea. Fue entonces cuando nos dimos cuenta de que estábamos creando algo que no se limitaba al entretenimiento, sino que posiblemente sería el siguiente paso en el futuro de las experiencias de audio social.

¿Podría hablar sobre algunas de las tecnologías de reconocimiento de voz?

Con la gama de cambiadores de voz de nuestro catálogo, se realizan procesos para transformar una voz humana normal en algo nuevo. Por supuesto, también hay aspectos de la voz que deben tenerse en cuenta, como la edad, el género, la emoción y variaciones simples en la forma de hablar.

Estas variaciones contribuyen a cómo alguien puede sonar y afectar los cambios que se aplican. Aprovechamos elementos de la tecnología de reconocimiento de voz más avanzada para facilitar la conversión y transformación de voz con la mayor precisión posible, y mejoramos continuamente este proceso. Queremos dar a las personas la oportunidad de estructurar la forma en que son percibidos, sonar como desean ser escuchados y brindar una excelente experiencia auditiva a su audiencia.

¿Por qué es importante ayudar a las personas a expresarse a través del sonido?

Desde el momento en que nacemos y el primer grito de un bebé, el sonido es la forma natural a través de la cual aprendemos a expresarnos. A medida que envejecemos, la importancia de la comunicación por audio continúa creciendo, a medida que aprendemos a moldear el sonido en el lenguaje y a usar nuestras voces para poner emoción y matices en las palabras que decimos. Al elevar el tono de nuestra voz, podemos indicar emoción, o usar efectos de sonido como suspiros o gemidos para poner énfasis particular en los puntos que queremos hacer.

Para algunas personas verdaderamente talentosas, la voz es un instrumento de expresión ilimitada, ya que pueden crear una cantidad ilimitada de efectos de sonido o voces. Sin embargo, la mayoría de nosotros no tenemos tanta suerte y nos sentimos incómodos con nuestras voces (especialmente cuando las escuchamos grabadas). Algunos de nuestros usuarios hablan de sentirse nerviosos cuando hablan frente a extraños y se sienten frustrados por no poder expresarse adecuadamente de la manera que les gustaría.

Aquí es donde vemos una gran oportunidad para ayudar a las personas. Con nuestras identidades de voz, los usuarios pueden moldear sus voces para que se sientan cómodos, o incluso pasar a diferentes voces para situaciones específicas. También queremos empoderarlos para que usen efectos de sonido, clips de música o emojis de audio para crear ambiente, transmitir contexto o implementar efectos cómicos, de forma similar a cómo los emojis gráficos han ayudado a dar forma a la comunicación de texto.

Ha descrito Voicemod como una conexión humana en evolución a través del sonido, ¿podría dar más detalles sobre esto?

Además de liberar al hablante y eliminar cierto bloqueo mental que impide que las personas hablen, también estamos trabajando para profundizar esta conexión. Por ejemplo, nuestra caja de resonancia lleva la comunicación al siguiente nivel: piense en ella como un "emoji de audio". ¿Se imagina a personas menores de 35 años chateando sin usar emojis? Si bien esta tecnología existe desde hace siglos, en realidad solo se ha integrado profundamente en nuestra comunicación desde aproximadamente 2010. Vimos una tendencia similar con los stickers en las plataformas de mensajería, el auge de los mensajes de voz y las notas de voz, y ahora el uso emergente de GIF y Giphy. Con la expansión de las comunicaciones de audio en todo el mundo, la importancia de cómo usamos el sonido está aumentando. Enviar una reacción de audio al chiste de su amigo puede decir mucho más sobre su reacción cruda y honesta que simplemente escribir una oración. Imagine la diferencia entre escuchar el sonido de los grillos y ¡BA dum Tss! Todos tienen significados y sentimientos muy diferentes que puedes comunicar fácilmente con solo un clic.

Queremos que sea lo más fácil posible para los usuarios utilizar voces, efectos de voz y emojis de audio para tener conversaciones de audio más atractivas con amigos, familiares o extraños.

¿Cuáles son algunas de las tecnologías de aprendizaje automático detrás de la aplicación Voicemod, incluida la de permitir a los usuarios sonar mejor y personalizar su voz basándose en su voz real?

El aprendizaje automático está en el corazón de la mayoría de las nuevas funciones de Voicemod.

En cuanto al aspecto creativo, Voicelab de Voicemod ha creado la primera tecnología de conversión de voz en tiempo real del mercado que permitirá a los usuarios elegir su propia identidad sonora, creando voces personales para cada uno.

Con nuestra nueva y avanzada tecnología que se lanzará próximamente, creamos voces nunca antes escuchadas con características únicas que ayudarán a proteger la privacidad y seguridad de los usuarios, al mismo tiempo que les permitirán crear su personalidad deseada a través del sonido.

También hemos observado el surgimiento de metodologías de aprendizaje profundo basadas en datos en los últimos años. Estas nos permiten aprender estructuras abstractas ocultas dentro de las señales de voz, relacionadas con las características perceptuales de la voz, como la fonología, el contenido, la identidad, la intención y el estado de ánimo. Aprovechando estas tecnologías, podemos controlar y modificar los aspectos perceptuales de la señal. Esto nos permite diseñar tecnologías que brindan a los usuarios un mayor control sobre la identidad de su voz percibida, algo que antes no era posible.

¿Cuáles son algunos de los casos de uso de la aplicación Voicemod?

Lo mejor de Voicemod es que sus herramientas atienden una amplia variedad de necesidades y escenarios. las situaciones más comunes serían para la creación de contenido, jugar con amigos, chatear con familiares o amigos, crear entornos de juegos de rol inmersivos o incluso para el trabajo y los negocios, donde los usuarios utilizan principalmente nuestras herramientas de cancelación de ruido y mejora de audio.

¿Podría hablar sobre algunos de los desafíos y beneficios de lanzar una startup con hermanos?

Sinceramente, me encantaría, y sé que, por supuesto, todos enfrentamos desafíos de alguna manera, pero la verdad es que no recuerdo muchos en nuestro caso. La razón es que venimos de una familia muy grande. Siempre estábamos haciendo algo juntos, desde proyectos de la infancia hasta tocar música y crear. Era natural que termináramos trabajando juntos. Mis hermanos Fernando y Juan, quienes, como mencioné, cofundaron Voicemod junto conmigo, ya tenían varias empresas juntos, así que tenían mucha experiencia en ese sentido. Me uní a ellos en 2010 en su empresa, que era 2taptap, así que también me familiaricé con ella. Esto significa que cuando creamos Voicemod, lo hicimos completamente alineados con lo que queríamos lograr y, lo que es más importante, cómo queríamos lograrlo. Como tal, realmente ha ayudado a incorporar una cultura muy sólida de valores alineados en Voicemod, que ha sido una verdadera clave para nuestro éxito.

¿Hay algo más que le gustaría compartir sobre Voicemod?

Están sucediendo muchas cosas detrás de escena, pero en línea con nuestro deseo de evolucionar el sonido para todosActualmente estamos trabajando en algo para que nuestra tecnología sea aún más accesible. Una forma para que cualquier desarrollador pueda usarla en su producto.

Sabemos que las personas pasan la mayor parte de su tiempo en línea, conectadas, expresándose en diversas plataformas y aplicaciones. En entornos en línea, tu "avatar" es tu representación personal completa. Y, en realidad, ¿quién es esa persona sin voz?

Desarrollar tecnología de cambio de voz en tiempo real y un sistema de expresiones sonoras totalmente personalizables es una tarea ardua. Nuestro equipo ha simplificado este proceso al diseñar un kit completo que los desarrolladores pueden integrar fácilmente en cualquier lugar. Nos entusiasma enormemente poner nuestra tecnología a disposición de desarrolladores y usuarios de todo el mundo, mientras seguimos construyendo el futuro de las experiencias de audio social.

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar Voicemod.

Temas relacionados:Entrevista mod de voz

antoine tardif

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Es un emprendedor en serie y cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablar maravillas sobre el potencial de las tecnologías disruptivas y la IA general.

Como titular de futurista, se dedica a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Valores.io, una plataforma centrada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y transformando sectores enteros.

Unir.AI

Jaime Bosch, CEO, Voicemod – Serie de entrevistas

Te podría gustar