Interviews

Dylan Fox, PDG et fondateur d'AssemblyAI - Série d'interviews

Publié le

il y a des années 2

14 septembre 2022

Dylan Fox est le PDG et fondateur de AssembléeAI, une plate-forme qui convertit automatiquement les fichiers audio et vidéo et les flux audio en direct en texte avec les API Speech-to-Text d'AssemblyAI.

Qu'est-ce qui vous a initialement attiré vers l'apprentissage automatique ?

J'ai commencé par apprendre à programmer et j'ai assisté à Python Meetups à Washington DC, où je suis allé à l'université. Grâce à des cours universitaires, je me suis retrouvé à m'intéresser davantage aux problèmes de programmation de type algorithmique, ce qui m'a naturellement conduit à l'apprentissage automatique et à la PNL.

Avant de fonder AssemblyAI, vous étiez ingénieur logiciel senior chez Cisco, sur quoi travailliez-vous ?

Chez Cisco, j'étais un ingénieur logiciel senior spécialisé dans l'apprentissage automatique pour leurs produits de collaboration.

Comment votre travail chez Cisco et un problème d'approvisionnement en technologie de reconnaissance vocale vous ont-ils inspiré à lancer AssemblyAI ?

Dans certains de mes emplois précédents, j'ai eu l'occasion de travailler sur de nombreux projets d'IA, y compris plusieurs projets qui nécessitaient la reconnaissance vocale. Mais toutes les entreprises proposant la reconnaissance vocale en tant que service étaient incroyablement désuètes, difficiles à acheter et utilisaient une technologie d'intelligence artificielle obsolète.

Au fur et à mesure que je m'intéressais de plus en plus à la recherche sur l'IA, j'ai remarqué qu'il y avait beaucoup de travail en cours dans le domaine de la reconnaissance vocale et à quelle vitesse la recherche s'améliorait. C'est donc une combinaison de facteurs qui m'a inspiré à penser : "Et si vous pouviez créer une société d'API de style Twilio en utilisant les dernières recherches sur l'IA, ce qui était beaucoup plus facile pour les développeurs d'accéder à des modèles d'IA de pointe pour la parole ? reconnaissance, avec une bien meilleure expérience de développeur.

Et c'est à partir de là que l'idée de AssembléeAI a grandi.

Quel est le plus grand défi derrière la création d'une technologie de reconnaissance vocale précise et fiable ?

Le coût et le talent sont les plus grands défis auxquels toute entreprise doit faire face lorsqu'elle développe une technologie de reconnaissance vocale précise et fiable.

Les données sont coûteuses à acquérir et vous avez généralement besoin de centaines de milliers d'heures pour créer un système de reconnaissance vocale robuste. De plus, les besoins en calcul sont énormes pour s'entraîner. Et servir ces modèles en production est également coûteux et nécessite des talents spécialisés pour l'optimiser et le rendre économique.

La construction de ces technologies nécessite également un ensemble de compétences spécialisées difficiles à trouver. C'est l'une des principales raisons pour lesquelles les clients font appel à nous pour de puissants modèles d'IA que nous recherchons, formons et déployons en interne. Ils ont accès à des années de recherche sur des modèles d'IA de pointe pour l'ASR et le NLP, le tout avec une simple API.

En dehors de la simple transcription de contenu audio et vidéo, AssemblyAI propose des modèles supplémentaires, pouvez-vous nous expliquer quels sont ces modèles ?

Notre suite de modèles d'IA va au-delà de la simple transcription en temps réel et asynchrone. Nous appelons ces modèles supplémentaires des modèles Audio Intelligence car ils aident les clients à analyser et à mieux comprendre les données audio.

Notre modèle de résumé fournit un résumé global, ainsi que des résumés codés dans le temps qui segmentent et génèrent automatiquement un résumé pour chaque «chapitre» à mesure que les sujets d'une conversation changent (similaire aux chapitres YouTube).

Notre modèle d'analyse des sentiments détecte le sentiment de chaque phrase prononcée dans les fichiers audio. Chaque phrase d'une transcription peut être marquée comme positive, négative ou neutre.

Notre modèle de détection d'entités identifie un large éventail d'entités prononcées dans les fichiers audio, telles que les noms de personnes ou d'entreprises, les adresses e-mail, les dates et les lieux.

Notre modèle de détection de sujet étiquette les sujets abordés dans les fichiers audio et vidéo. Les libellés de sujet prédits suivent la taxonomie IAB standardisée, ce qui les rend adaptés au ciblage contextuel.

Notre modèle de modération de contenu détecte les contenus sensibles dans les fichiers audio et vidéo, tels que les discours de haine, la violence, les problèmes sociaux sensibles, l'alcool, la drogue, etc.

Quels sont certains des cas d'utilisation les plus importants pour les entreprises utilisant AssemblyAI ?

Les plus grands cas d'utilisation que les entreprises ont pour AssemblyAI couvrent quatre catégories : téléphonie, vidéo, réunions virtuelles et médias.

CallRail est un excellent exemple de client dans le Telephony space, qui exploite les modèles d'intelligence artificielle d'AssemblyAI (Core Transcription, Automatic Transcript Highlights et PII Redaction) pour fournir une puissante solution d'intelligence conversationnelle à ses clients.

Essentiellement, CallRail peut désormais afficher et définir automatiquement le contenu clé de ses appels téléphoniques à ses clients à grande échelle - contenu clé tel que les demandes spécifiques des clients, les questions fréquemment posées et les mots clés et expressions fréquemment utilisés. Notre modèle PII Redaction les aide à détecter et à supprimer automatiquement les données sensibles trouvées dans le texte de la transcription (par exemple, les numéros de sécurité sociale, les numéros de carte de crédit, les adresses personnelles, etc.).

Vidéo les cas d'utilisation vont des plateformes de streaming vidéo aux éditeurs vidéo comme Veed, qui utilisent les modèles Core Transcription d'AssemblyAI pour simplifier le processus de montage vidéo pour les utilisateurs. Veed permet à ses utilisateurs de retranscrire ses vidéos et de les éditer directement à l'aide des sous-titres.

In Réunions virtuelles, des sociétés de logiciels de transcription de réunions comme Fathom utilisent AssemblyAI pour créer des fonctionnalités intelligentes qui aident leurs utilisateurs à transcrire et à mettre en évidence les moments clés de leurs appels Zoom, favorisant un meilleur engagement lors des réunions et éliminant les tâches fastidieuses pendant et après les réunions (par exemple, prendre des notes).

In Médias, nous voyons par exemple des plates-formes d'hébergement de podcasts utiliser nos modèles de modération de contenu et de détection de sujets afin qu'elles puissent offrir de meilleurs outils publicitaires pour les cas d'utilisation de la sécurité de la marque et monétiser le contenu généré par les utilisateurs avec des publicités dynamiques.

AssemblyAI récemment a levé un tour de série B de 30 millions de dollars. Comment cela accélérera-t-il la mission AssemblyAI ?

Les progrès réalisés dans le domaine de l'IA sont incroyablement excitants. Notre objectif est d'exposer ces progrès à chaque développeur et équipe produit sur Internet, via un simple ensemble d'API. Alors que nous continuons à rechercher et à former des modèles d'IA de pointe pour les tâches ASR et NLP (comme la reconnaissance vocale, le résumé, l'identification de la langue et de nombreuses autres tâches), nous continuerons à exposer ces modèles d'IA aux développeurs et aux équipes de produits. via des API simples - disponibles gratuitement.

AssemblyAI est un endroit où les développeurs et les équipes de produits peuvent accéder facilement aux modèles d'IA avancés dont ils ont besoin pour créer de nouveaux produits, services et entreprises entières passionnants.

Au cours des 6 derniers mois, nous avons lancé le support ASR pour 15 nouvelles langues- y compris l'espagnol, l'allemand, le français, l'italien, l'hindi et le japonais, ont publié des améliorations majeures de notre modèle de résumé, des modèles ASR en temps réel, des modèles de modération de contenu et d'innombrables autres mises à jour de produits.

Nous avons à peine puisé dans nos fonds de série A, mais ce nouveau financement nous donnera la possibilité d'intensifier nos efforts de manière agressive - sans compromettre notre piste.

Grâce à ce nouveau financement, nous pourrons accélérer notre feuille de route de produits, mettre en place une meilleure infrastructure d'IA pour accélérer nos moteurs de recherche et d'inférence sur l'IA, et développer notre équipe de recherche sur l'IA, qui comprend aujourd'hui des chercheurs de DeepMind, Google Brain, Meta AI, BMW et Cisco.

Y a-t-il autre chose que vous aimeriez partager sur AssemblyAI ?

Notre mission est de rendre les modèles d'IA de pointe accessibles aux développeurs et aux équipes de produits à très grande échelle via une simple API.

Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter AssembléeAI.

Rubriques connexes:AssembléeAI Interview

Yonatan Geifman, PDG et co-fondateur de Deci - Série d'interviews

Ne manquez pas

Mike Capps, co-fondateur et PDG de Diveplane - Série d'interviews

Antoine Tardif

Partenaire fondateur d'unite.AI et membre du Conseil technologique de Forbes, Antoine est un futuriste qui est passionné par l'avenir de l'IA et de la robotique.

Il est également le fondateur de Titres.io, un site Web axé sur l'investissement dans les technologies de rupture.

Unite.AI

Dylan Fox, PDG et fondateur d'AssemblyAI - Série d'interviews

Interviews

Dylan Fox, PDG et fondateur d'AssemblyAI - Série d'interviews

Table des matières

Unite.AI

Dylan Fox, PDG et fondateur d'AssemblyAI - Série d'interviews

Table des matières

Tu peux aimer