Entrevistas
Dylan Fox, CEO & Founder de AssemblyAI – Serie de Entrevistas

Dylan Fox es el CEO y Fundador de AssemblyAI, una plataforma que convierte automáticamente archivos de audio y video y transmisiones de audio en vivo a texto con los API de Speech-to-Text de AssemblyAI.
¿Qué te atrajo inicialmente a la inteligencia artificial?
Comencé aprendiendo a programar y asistiendo a reuniones de Python en Washington DC, donde estudié la universidad. A través de cursos universitarios, me encontré inclinándome más hacia problemas de programación de tipo algoritmo, lo que me llevó naturalmente a la inteligencia artificial y el NLP.
Antes de fundar AssemblyAI, eras Ingeniero de Software Senior en Cisco, ¿en qué estabas trabajando?
En Cisco, era Ingeniero de Software Senior centrado en Aprendizaje Automático para sus productos de colaboración.
¿Cómo te inspiró tu trabajo en Cisco y un problema con la tecnología de reconocimiento de voz para lanzar AssemblyAI?
En algunos de mis trabajos anteriores, tuve la oportunidad de trabajar en muchos proyectos de IA, incluyendo varios proyectos que requerían reconocimiento de voz. Pero todas las empresas que ofrecían reconocimiento de voz como servicio eran increíblemente anticuadas, difíciles de comprar y estaban ejecutando tecnología de IA obsoleta.
A medida que me interesaba más en la investigación de IA, noté que había mucho trabajo siendo realizado en el campo del reconocimiento de voz y lo rápido que la investigación mejoraba. Así que fue una combinación de factores que me inspiró a pensar, “¿Qué tal si pudieras construir una empresa de API estilo Twilio utilizando la investigación de IA más reciente que fuera mucho más fácil para los desarrolladores acceder a modelos de IA de vanguardia para el reconocimiento de voz, con una experiencia de desarrollador mucho mejor.”
Y fue desde allí que creció la idea de AssemblyAI.
¿Cuál es el mayor desafío detrás de la construcción de tecnología de reconocimiento de voz precisa y confiable?
El costo y el talento son los mayores desafíos para cualquier empresa que aborde la construcción de tecnología de reconocimiento de voz precisa y confiable.
Los datos son costosos de adquirir, y generalmente necesitas cientos de miles de horas para construir un sistema de reconocimiento de voz robusto. No solo eso, los requisitos de cómputo son enormes para entrenar. Y servir estos modelos en producción también es costoso y requiere talento especializado para optimizar y hacerlo económico.
Construir estas tecnologías también requiere un conjunto de habilidades especializado que es difícil de encontrar. Esa es una gran razón por la que los clientes vienen a nosotros para obtener poderosos modelos de IA que investigamos, entrenamos y desplegamos internamente. Obtienen acceso a años de investigación en modelos de IA de vanguardia para ASR y NLP, todo con una API simple.
Fuera de la transcripción pura de contenido de audio y video, AssemblyAI ofrece modelos adicionales, ¿puedes discutir qué son estos modelos?
Nuestra suite de modelos de IA se extiende más allá de la transcripción en tiempo real y asíncrona. Nos referimos a estos modelos adicionales como Modelos de Inteligencia de Audio, ya que ayudan a los clientes a analizar y comprender mejor los datos de audio.
Nuestro modelo de Resumen proporciona un resumen general, así como resúmenes con codificación de tiempo que segmentan y generan automáticamente un resumen para cada “capítulo” a medida que cambian los temas en una conversación (similar a los capítulos de YouTube).
Nuestro modelo de Análisis de Sentimiento detecta el sentimiento de cada oración de habla en los archivos de audio. Cada oración en una transcripción se puede marcar como Positiva, Negativa o Neutral.
Nuestro modelo de Detección de Entidades identifica una amplia gama de entidades que se mencionan en los archivos de audio, como nombres de personas o empresas, direcciones de correo electrónico, fechas y ubicaciones.
Nuestro modelo de Detección de Temas etiqueta los temas que se mencionan en los archivos de audio y video. Las etiquetas de tema predichas siguen la taxonomía estandarizada de IAB, lo que las hace adecuadas para la segmentación contextual.
Nuestro modelo de Moderación de Contenido detecta contenido sensible en los archivos de audio y video, como discurso de odio, violencia, cuestiones sociales sensibles, alcohol, drogas y más.
¿Cuáles son algunos de los casos de uso más grandes para las empresas que utilizan AssemblyAI?
Los casos de uso más grandes que las empresas tienen para AssemblyAI abarcan cuatro categorías: telefonía, video, reuniones virtuales y medios.
CallRail es un gran ejemplo de un cliente en el espacio de Telefonía, que aprovecha los modelos de IA de AssemblyAI, como la Transcripción Core, los Destacados de Transcripción Automáticos y la Redacción de PII, para ofrecer una solución de Inteligencia Conversacional poderosa a sus clientes.
En esencia, CallRail puede ahora superficiar y definir automáticamente contenido clave en sus llamadas telefónicas a sus clientes a gran escala, como solicitudes de clientes específicas, preguntas comunes y palabras y frases clave frecuentemente utilizadas. Nuestro modelo de Redacción de PII ayuda a detectar y eliminar automáticamente datos sensibles encontrados en el texto de la transcripción (por ejemplo, números de seguridad social, números de tarjeta de crédito, direcciones personales, etc.).
Los casos de uso de Video van desde plataformas de transmisión de video hasta editores de video como Veed, que utilizan los modelos de Transcripción Core de AssemblyAI para simplificar el proceso de edición de video para los usuarios. Veed permite a sus usuarios transcribir sus videos y editarlos directamente utilizando los subtítulos.
En Reuniones Virtuales, las empresas de software de transcripción de reuniones como Fathom están utilizando AssemblyAI para construir funciones inteligentes que ayuden a sus usuarios a transcribir y resaltar los momentos clave de sus llamadas de Zoom, fomentando una mejor participación en las reuniones y eliminando tareas tediosas durante y después de las reuniones (por ejemplo, tomar notas).
En Medios, vemos que las plataformas de alojamiento de podcasts, por ejemplo, utilizan nuestros modelos de Moderación de Contenido y Detección de Temas para que puedan ofrecer mejores herramientas publicitarias para casos de uso de seguridad de marca y monetizar el contenido generado por el usuario con anuncios dinámicos.
AssemblyAI recientemente recaudó una ronda de financiación de $30M de la Serie B. ¿Cómo acelerará esta la misión de AssemblyAI?
El progreso que se está realizando en el campo de la IA es increíblemente emocionante. Nuestro objetivo es exponer este progreso a todos los desarrolladores y equipos de productos en Internet, a través de un conjunto simple de API. A medida que continuamos investigando y entrenando modelos de IA de vanguardia para tareas de ASR y NLP (como reconocimiento de voz, resumen, identificación de idioma y muchas otras tareas), continuaremos exponiendo estos modelos de IA a desarrolladores y equipos de productos a través de API simples, disponibles de forma gratuita.
AssemblyAI es un lugar donde tanto los desarrolladores como los equipos de productos pueden venir para obtener acceso fácil a los modelos de IA avanzados que necesitan para construir productos, servicios y empresas emocionantes nuevos.
En los últimos 6 meses, hemos lanzado soporte de ASR para 15 nuevos idiomas, incluyendo español, alemán, francés, italiano, hindi y japonés, y hemos lanzado mejoras importantes en nuestro modelo de Resumen, modelos de ASR en tiempo real, modelos de Moderación de Contenido y countless otras actualizaciones de producto.
Apenas hemos utilizado nuestros fondos de la Serie A, pero esta nueva financiación nos dará la capacidad de escalar agresivamente nuestros esfuerzos, sin comprometer nuestra autonomía.
Con esta nueva financiación, podremos acelerar nuestra hoja de ruta de producto, construir una mejor infraestructura de IA para acelerar nuestros motores de investigación e inferencia, y crecer nuestro equipo de investigación de IA, que hoy incluye investigadores de DeepMind, Google Brain, Meta AI, BMW y Cisco.
¿Hay algo más que te gustaría compartir sobre AssemblyAI?
Nuestra misión es hacer que los modelos de IA de vanguardia sean accesibles a desarrolladores y equipos de productos a una escala extremadamente grande a través de una API simple.
Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar AssemblyAI.












