Entretiens

Dylan Fox, CEO & Founder of AssemblyAI – Interview Series

mm

Dylan Fox est le CEO & Founder de AssemblyAI, une plateforme qui convertit automatiquement les fichiers audio et vidéo et les flux audio en direct en texte avec les API Speech-to-Text d’AssemblyAI.

Qu’est-ce qui vous a initialement attiré vers l’apprentissage automatique ?

J’ai commencé par apprendre à programmer et j’ai assisté à des réunions Python à Washington DC, où j’ai fait mes études universitaires. À travers les cours universitaires, je me suis trouvé de plus en plus attiré par les problèmes de programmation de type algorithme, ce qui m’a naturellement conduit à l’apprentissage automatique et au traitement automatique des langues.

Auparavant, vous étiez un ingénieur logiciel senior chez Cisco, sur quoi travailliez-vous ?

Chez Cisco, j’étais un ingénieur logiciel senior axé sur l’apprentissage automatique pour leurs produits de collaboration.

Comment votre travail chez Cisco et un problème de sourcing de technologie de reconnaissance vocale vous ont-ils inspiré pour lancer AssemblyAI ?

Dans certains de mes précédents postes, j’ai eu l’occasion de travailler sur de nombreux projets d’intelligence artificielle, notamment plusieurs projets qui nécessitaient une reconnaissance vocale. Mais toutes les entreprises qui proposaient des services de reconnaissance vocale étaient incroyablement dépassées, difficiles à acheter et utilisaient des technologies d’intelligence artificielle obsolètes.

Alors que je m’intéressais de plus en plus à la recherche en intelligence artificielle, j’ai remarqué qu’il y avait beaucoup de travail effectué dans le domaine de la reconnaissance vocale et à quel point la recherche s’améliorait rapidement. C’est donc une combinaison de facteurs qui m’a inspiré à penser : « Et si vous pouviez créer une entreprise de type Twilio en utilisant les dernières recherches en intelligence artificielle qui soit beaucoup plus facile pour les développeurs d’accéder à des modèles d’intelligence artificielle de pointe pour la reconnaissance vocale, avec une expérience développeur nettement améliorée. »

Et c’est à partir de là que l’idée d’AssemblyAI a grandi.

Quel est le plus grand défi derrière la construction d’une technologie de reconnaissance vocale précise et fiable ?

Le coût et les talents sont les plus grands défis pour toute entreprise qui tente de construire une technologie de reconnaissance vocale précise et fiable.

Les données sont coûteuses à acquérir, et vous avez généralement besoin de centaines de milliers d’heures pour construire un système de reconnaissance vocale robuste. Non seulement cela, les exigences de calcul sont énormes pour former. Et la mise en service de ces modèles en production est également coûteuse et nécessite des talents spécialisés pour les optimiser et les rendre économiques.

La construction de ces technologies nécessite également un ensemble de compétences spécialisées qui est difficile à trouver. C’est une grande raison pour laquelle les clients viennent à nous pour des modèles d’intelligence artificielle puissants que nous recherchons, formons et déployons en interne. Ils ont accès à des années de recherche sur des modèles d’intelligence artificielle de pointe pour la reconnaissance vocale et le traitement automatique des langues, le tout avec une simple API.

Hors de la simple transcription de contenu audio et vidéo, AssemblyAI propose des modèles supplémentaires, pouvez-vous en parler ?

Notre gamme de modèles d’intelligence artificielle s’étend au-delà de la simple transcription en temps réel et asynchrone. Nous appelons ces modèles supplémentaires des modèles d’intelligence audio, car ils aident les clients à analyser et à mieux comprendre les données audio.

Notre modèle de résumé fournit un résumé général, ainsi que des résumés codés dans le temps qui segmentent automatiquement et génèrent un résumé pour chaque « chapitre » dans une conversation (semblable aux chapitres YouTube).

Notre modèle d’analyse des sentiments détecte les sentiments de chaque phrase prononcée dans les fichiers audio. Chaque phrase d’une transcription peut être marquée comme positive, négative ou neutre.

Notre modèle de détection d’entités identifie une large gamme d’entités qui sont prononcées dans les fichiers audio, telles que les noms de personnes ou de sociétés, les adresses e-mail, les dates et les lieux.

Notre modèle de détection de sujet étiquette les sujets qui sont abordés dans les fichiers audio et vidéo. Les étiquettes de sujet prédites suivent la taxonomie standard IAB, ce qui les rend adaptées à la ciblage contextuel.

Notre modèle de modération de contenu détecte le contenu sensible dans les fichiers audio et vidéo — tel que les discours de haine, la violence, les questions sociales sensibles, l’alcool, les drogues, etc.

Quels sont les plus grands cas d’utilisation pour les entreprises qui utilisent AssemblyAI ?

Les plus grands cas d’utilisation pour les entreprises qui utilisent AssemblyAI s’étendent sur quatre catégories : la téléphonie, la vidéo, les réunions virtuelles et les médias.

CallRail est un excellent exemple de client dans l’espace téléphonie, qui utilise les modèles d’intelligence artificielle d’AssemblyAI — Transcription de base, Faits saillants de transcription automatique et Réduction des informations personnelles — pour offrir une solution d’intelligence conversationnelle puissante à ses clients.

Essentiellement, CallRail peut maintenant faire surface et définir automatiquement le contenu clé dans ses appels téléphoniques à ses clients à grande échelle — contenu clé tel que des demandes spécifiques des clients, des questions fréquemment posées et des mots-clés et des phrases couramment utilisés. Notre modèle de réduction des informations personnelles les aide à détecter et à supprimer automatiquement les données sensibles trouvées dans le texte de la transcription (par exemple, les numéros de sécurité sociale, les numéros de carte de crédit, les adresses personnelles, etc.).

Les cas d’utilisation vidéo vont des plateformes de streaming vidéo aux éditeurs de vidéo comme Veed, qui utilisent les modèles de transcription de base d’AssemblyAI pour simplifier le processus de montage vidéo pour les utilisateurs. Veed permet à ses utilisateurs de transcrire leurs vidéos et de les éditer directement à l’aide des légendes.

Dans les réunions virtuelles, les sociétés de logiciels de transcription de réunions comme Fathom utilisent AssemblyAI pour construire des fonctionnalités intelligentes qui aident leurs utilisateurs à transcrire et à mettre en évidence les moments clés de leurs appels Zoom, favorisant ainsi une meilleure implication et éliminant les tâches fastidieuses pendant et après les réunions (par exemple, prendre des notes).

Dans les médias, nous voyons des plateformes d’hébergement de podcasts, par exemple, utiliser nos modèles de modération de contenu et de détection de sujet pour qu’ils puissent offrir de meilleurs outils de sécurité pour les cas d’utilisation de la publicité et monétiser le contenu généré par les utilisateurs avec des publicités dynamiques.

AssemblyAI a récemment levé un tour de table de série B de 30 millions de dollars. Comment cela va-t-il accélérer la mission d’AssemblyAI ?

Les progrès réalisés dans le domaine de l’intelligence artificielle sont incroyablement excitants. Notre objectif est d’exposer ces progrès à chaque développeur et équipe de produits sur Internet — via un ensemble simple d’API. Alors que nous continuons à rechercher et à former des modèles d’intelligence artificielle de pointe pour les tâches de reconnaissance vocale et de traitement automatique des langues (comme la reconnaissance vocale, la résumé, l’identification de la langue, etc.), nous allons continuer à exposer ces modèles d’intelligence artificielle aux développeurs et aux équipes de produits via des API simples — disponibles gratuitement.

AssemblyAI est un endroit où les développeurs et les équipes de produits peuvent venir pour avoir un accès facile aux modèles d’intelligence artificielle avancés dont ils ont besoin pour construire de nouveaux produits, services et sociétés entières.

Au cours des six derniers mois, nous avons lancé la prise en charge de la reconnaissance vocale pour 15 nouvelles langues — y compris l’espagnol, l’allemand, le français, l’italien, l’hindi et le japonais, et avons publié des améliorations majeures de notre modèle de résumé, de nos modèles de reconnaissance vocale en temps réel, de nos modèles de modération de contenu, et de nombreuses autres mises à jour de produits.

Nous n’avons même pas encore utilisé la moitié de nos fonds de série A, mais ce nouveau financement nous donnera la capacité d’accélérer nos efforts — sans compromettre notre autonomie.

Avec ce nouveau financement, nous serons en mesure d’accélérer notre feuille de route de produits, de construire de meilleures infrastructures d’intelligence artificielle pour accélérer nos moteurs de recherche et d’inférence, et de développer notre équipe de recherche en intelligence artificielle — qui compte aujourd’hui des chercheurs de DeepMind, Google Brain, Meta AI, BMW et Cisco.

Y a-t-il autre chose que vous aimeriez partager sur AssemblyAI ?

Notre mission est de rendre les modèles d’intelligence artificielle de pointe accessibles aux développeurs et aux équipes de produits à une échelle extrêmement large via une API simple.

Je vous remercie pour cette excellente interview, les lecteurs qui souhaitent en savoir plus peuvent visiter AssemblyAI.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.