Entretiens

Matt Hocking, Co-Fondateur de WellSaid Labs – Série d’entretiens

Published April 10, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Matt Hocking est le co-fondateur de WellSaid Labs, un générateur de voix IA de niveau entreprise de pointe. Il a plus de 15 ans d’expérience dans la direction d’équipes et la livraison de solutions technologiques à grande échelle.

Votre parcours est plutôt entrepreneurial, comment vous êtes-vous initialement impliqué dans l’IA ?

Je me considère comme plutôt entrepreneurial. J’ai lancé ma première entreprise après mes études et, avec une formation en design de produits, j’ai trouvé que je gravitais naturellement vers l’aide aux gens ayant des idées de démarrage. Au cours de ma carrière, j’ai eu la chance de travailler avec un certain nombre de startups qui ont eu des parcours incroyables. Lors de ces expériences, j’ai eu un contact étroit avec de nombreux fondateurs exceptionnels, ce qui m’a inspiré à poursuivre mes propres idées en tant que fondateur. L’IA était relativement nouvelle pour moi lorsque j’ai rejoint AI2 ; cependant, cette expérience m’a donné l’opportunité d’appliquer mon regard sur les produits et les startups à des recherches vraiment incroyables et d’imaginer comment ces nouvelles avancées allaient être en mesure d’aider beaucoup de gens dans les années à venir. Mon objectif depuis le début a été de développer de vraies entreprises pour de vraies personnes, et je crois que l’IA a le potentiel de créer de nombreuses opportunités et efficacités excitantes dans notre avenir si elle est appliquée de manière réfléchie.

Pouvez-vous partager l’histoire de la façon dont l’idée de WellSaid Labs a été conçue lorsque vous étiez un entrepreneur en résidence au The Allen Institute for AI ?

J’ai rejoint The Allen Institute for Artificial Intelligence (AI2) en tant qu’entrepreneur en résidence en 2018. Sans conteste, c’est l’incubateur le plus innovant au monde, AI2 abrite les esprits les plus brillants en IA qui appliquent des solutions à la pointe de ce qui est possible aujourd’hui à des produits tangibles qui résolvent des problèmes autour du globe. Mon expérience en design et technologie a nourri un intérêt de longue date pour les domaines créatifs, et avec le boom de l’IA que nous vivons aujourd’hui, je voulais explorer un moyen de connecter les deux. J’ai rencontré Michael Petrochuk (co-fondateur et CTO de WellSaid Labs) tout en développant une application de soins de santé interactive qui guidait le patient à travers divers scénarios sensibles. Lors du processus de développement du contenu pour l’expérience, mon équipe a travaillé avec des talents vocaux pour pré-enregistrer des milliers de lignes de voix off pour l’avatar. Lorsque j’ai été exposé à certaines des avancées que Michael avait réalisées lors de ses recherches, nous avons tous deux rapidement vu la valeur de la façon dont la parole synthétique à parité humaine pourrait transformer non seulement le produit sur lequel je travaillais, mais également avoir un impact sur un certain nombre d’autres applications et industries. La technologie et l’outillage ont lutté pour suivre les besoins des producteurs créant avec la voix comme moyen d’expression. Nous avons vu un chemin pour mettre cette technologie à la portée de tous les créateurs, permettant à la voix de faire partie intégrante de toutes les histoires.

WellSaid Labs est l’une des rares entreprises qui offre aux acteurs vocaux un accès à l’espace de la voix off IA. Pourquoi avez-vous cru qu’il était important d’intégrer de vraies voix dans le produit ?

Notre réponse est double : premièrement, nous voulions créer des solutions qui complètent les capacités des acteurs vocaux professionnels, en élargissant les opportunités pour la voix. Et deuxièmement, nous nous efforçons d’avoir le plus haut niveau de qualité humaine dans nos produits. Nos acteurs vocaux sont des partenaires de collaboration à long terme et reçoivent une rémunération et une part des revenus pour leurs données vocales et le contenu produit avec. Chaque acteur vocal que nous embauchons pour créer un avatar vocal IA basé sur leur voix est payé en fonction de la façon dont leur voix est utilisée sur notre plateforme. Nous encourageons les talents à nous rejoindre ; une rémunération équitable pour leurs contributions est incroyablement importante pour nous.

Pour offrir les produits de la plus haute qualité humaine sur le marché, nous devons être rigoureux sur la façon dont nous obtenons nos données. Ce processus nous donne plus de contrôle sur la qualité, car nous formons nos modèles d’apprentissage automatique pour parler à la fois à la parité humaine et à des styles spécifiques au contexte. Nous ne créons pas simplement une voix qui récite l’entrée fournie. Nos modèles offrent une variété de styles vocaux qui réalisent ce qui est sur la page. Que les utilisateurs créent une voix off en utilisant un avatar de notre bibliothèque ou en créant une voix off avec une voix personnalisée pour leur marque, nous utilisons de vraies données vocales pour assurer un processus fluide et une plateforme facile à utiliser. Si nos clients devaient manipuler et éditer nos voix en post-production, le processus d’obtention de la sortie souhaitée serait difficile et long. Nos voix prennent en compte le contexte du contenu écrit et fournissent une lecture contextuellement précise. Nous offrons des voix pour tous les types de cas d’utilisation – que ce soit la lecture des actualités, la création d’une publicité audio ou le support d’un centre d’appel automatisé – donc, le partenariat avec des talents vocaux professionnels pour chaque cas d’utilisation nous fournit à la fois le contexte et les données vocales de haute qualité.

Nous mettons régulièrement à jour et ajoutons de nouveaux styles et accents à notre bibliothèque d’avatars pour nous assurer que nous représentons les voix de nos clients. Dans le studio WellSaid Labs, les clients et les marques peuvent auditionner différentes voix en fonction de la région, du style et du cas d’utilisation, permettant une production audio plus fluide et unifiée personnalisée aux besoins du créateur. Une fois qu’un enregistrement initial est échantillonné, les utilisateurs peuvent déclencher des mots, des orthographes et des prononciations spécifiques pour s’assurer que l’IA parle de manière cohérente à leurs besoins.

WellSaid Labs revendique son statut de première plateforme de voix IA éthique. Pourquoi l’éthique de l’IA est-elle importante pour vous ?

À mesure que l’adoption de l’IA augmente et devient plus mainstream, les craintes d’utilisation abusive et de mauvais acteurs sont au centre de chaque conversation – et ces préoccupations sont malheureusement validées par des cas concrets. La voix IA ne fait pas exception ; presque chaque jour, un nouveau rapport sur un célébrité, une personnalité publique ou un politicien étant deepfake pour des publicités ou à des fins politiques fait les manchettes. Bien que la réglementation fédérale formelle concernant cette technologie soit encore en évolution, détecter et combattre les acteurs et les utilisations malveillants de la voix synthétique deviendra de plus en plus difficile à mesure que la technologie continuera de progresser.

En venant d’AI2, où l’éthique de l’IA est un principe fondamental, Michael et moi avons eu ces conversations dès le premier jour. Développer la technologie de la parole IA comporte des responsabilités significatives en matière de consentement, de confidentialité et de sécurité globale. Nous savons que nous, en tant que développeurs, devons construire notre technologie de manière sûre, aborder les préoccupations éthiques et poser les fondements pour le développement futur des voix synthétiques. Nous reconnaissons le potentiel de la technologie de la parole IA pour une utilisation abusive et nous assumons notre responsabilité de réduire les utilisations abusives potentielles de notre produit. Nous devons poser ces fondements dès le premier jour plutôt que de courir vite et de faire des erreurs en cours de route. Ce ne serait pas faire ce qu’il faut pour nos clients entreprises et nos acteurs vocaux, qui comptent sur nous pour construire un produit de haute qualité et fiable.

Nous soutenons pleinement l’appel à la législation dans ce domaine ; cependant, nous n’attendrons pas que les réglementations fédérales soient promulguées. Nous avons toujours donné la priorité et continuerons de donner la priorité aux pratiques qui soutiennent la confidentialité, la sécurité, la transparence et la responsabilité.

Nous respectons strictement notre code d’intention éthique d’entreprise, qui est basé sur la construction d’une innovation responsable dans chaque décision que nous prenons. Cela est dans le meilleur intérêt de nos clients mondiaux – les marques d’entreprises.

Comment développez-vous une plateforme de voix IA éthique ?

WellSaid Labs s’est engagé dans l’innovation éthique dès le départ. Nous centralisons la confiance et la transparence grâce à l’utilisation de modèles de données internes, d’exigences de consentement explicite, de notre programme de modération de contenu et de notre engagement en matière de protection de la marque. Chez WellSaid, nous nous appuyons sur les principes de Responsible AI pour façonner nos décisions et conceptions, et ces principes s’étendent à l’utilisation de nos voix. Notre code d’éthique représente ces principes comme la responsabilité, la transparence, la confidentialité et la sécurité, et l’équité.

Responsabilité : Nous maintenons des normes strictes pour un contenu approprié, interdisant l’utilisation de nos voix pour du contenu qui est nuisible, haineux, frauduleux ou destiné à inciter à la violence. Notre équipe de confiance et de sécurité fait respecter ces normes avec un programme de modération de contenu rigoureux, bloquant et supprimant les utilisateurs qui tentent de violer nos conditions de service.

Transparence : Nous exigeons un consentement explicite avant de construire une voix synthétique avec les données vocales de quelqu’un. Les utilisateurs ne peuvent pas télécharger des données vocales de politiciens, de célébrités ou de quiconque pour créer un clone de leur voix à moins que nous n’ayons le consentement écrit explicite de cette personne.

Confidentialité et sécurité : Nous protégeons l’identité de nos acteurs vocaux en utilisant des images stock et des pseudonymes pour représenter les voix synthétiques. Nous encourageons également ces acteurs à exercer la prudence quant à la façon dont et avec qui ils partagent leur association avec WellSaid Labs ou d’autres sociétés de voix synthétique pour réduire les opportunités d’abus de leur voix.

Équité : Nous rémunérons tous les acteurs vocaux qui fournissent des données vocales pour notre plateforme, et nous leur offrons une part des revenus continue pour l’utilisation de la voix synthétique que nous construisons avec leurs données.

En plus de ces principes, nous respectons également strictement la propriété intellectuelle. Nous ne revendiquons pas la propriété du contenu fourni par nos utilisateurs ou nos acteurs vocaux. Nous donnons la priorité à l’intégrité, à l’équité et à la transparence dans tout ce que nous faisons, en veillant à ce que notre technologie de parole synthétique soit utilisée de manière responsable et éthique. Nous recherchons activement des partenariats avec des voix issues de divers horizons et expériences pour nous assurer que nous offrons une voix à tous.

Notre engagement en faveur de l’innovation responsable et du développement de la technologie de voix IA avec une éthique en tête nous distingue des autres dans l’espace qui cherchent à capitaliser sur une nouvelle industrie non réglementée par tous les moyens. Nos investissements précoces dans l’éthique, la sécurité et la confidentialité établissent la confiance et la loyauté au sein de nos acteurs vocaux et de nos clients, qui recherchent de plus en plus des produits et des services éthiques provenant des entreprises à la pointe de l’innovation.

WellSaid Labs a créé son propre modèle IA interne qui a permis à ses voix IA d’atteindre la parité humaine, et cela a été réalisé en apportant les imperfections humaines aux conversations. Qu’est-ce que ces imperfections qui rendent l’IA meilleure, et comment ces imperfections sont-elles mises en œuvre ?

WellSaid Labs n’est pas simplement un autre générateur de TTS. Lorsque les premières technologies TTS étaient incapables de reconnaître les qualités de la parole humaine comme le ton, le ton et le dialecte qui transmettent le contexte et l’émotion derrière les mots, les voix WellSaid ont atteint la parité humaine, en apportant des imperfections humaines uniques à la parole générée par IA.

Notre mesure principale de la qualité de la voix est et a toujours été la naturalité humaine. Cette croyance directrice a façonné notre technologie à chaque étape, des bibliothèques de scripts que nous avons construites aux instructions que nous donnons aux talents, et plus récemment, à la façon dont nous itérons sur nos algorithmes TTS de base.

Nous nous formons sur des vocalisations humaines authentiques. Nos talents vocaux lisent leurs scripts de manière authentique et engageante lorsqu’ils enregistrent pour nous. La perfection de la parole, en revanche, est un concept mécanique qui conduit à une sortie robotique et peu naturelle. Lorsque les talents vocaux professionnels se produisent, leur rythme de parole fluctue. Leur sonorité évolue en conjonction avec le contenu qu’ils lisent. Leur hauteur vocale peut augmenter dans un passage nécessitant une lecture excitée et diminuer à nouveau dans un passage plus sombre. Ces variations dynamiques constituent une prestation vocale humaine engageante.

En construisant des processus IA qui travaillent en coordination avec les performances dynamiques de nos talents professionnels, nous avons construit une plateforme TTS vraiment naturelle. Nous avons développé le premier système TTS à longue forme avec des contrôles prédictifs tout au long du processus de création. Notre bibliothèque phonétique contient une collection diverse de données audio, permettant aux utilisateurs d’incorporer des indices vocaux spécifiques, tels que des conseils de prononciation ou de contrôlabilité, dans le modèle pendant la phase de production. Sur une seule plateforme, les utilisateurs de WellSaid peuvent enregistrer, éditer et styliser leur voix off sans avoir à importer de données externes.

Pouvez-vous discuter de certains des défis derrière la construction d’une entreprise de voix IA TTS ?

Le développement de la technologie de voix IA a créé un ensemble entièrement nouveau d’obstacles pour ses producteurs et ses consommateurs. L’un des principaux défis est de ne pas se laisser prendre dans le bruit et l’hype qui inondent le secteur de l’IA. En tant que technologie nouvelle et à la mode, de nombreuses organisations tentent de profiter des développements à court terme de la voix IA. Nous voulons offrir une voix à tous, guidée par des principes éthiques centraux et l’authenticité. Cette adhésion à l’authenticité peut retarder le développement et le déploiement de nos technologies, mais cela consolide la sécurité et la sécurité des voix WellSaid et de leurs données.

Un autre défi dans le développement de notre plateforme TTS était de développer des lignes directrices de consentement spécifiques pour nous assurer que les organisations ou les acteurs individuels n’abuseraient pas de notre technologie. Pour relever ce défi, nous recherchons des partenariats collaboratifs et à long terme et sommes pleinement impliqués dans le développement de la voix off pour augmenter la responsabilité, la transparence et la sécurité de l’utilisateur. Nous recherchons activement des partenariats avec des talents vocaux issus de divers horizons, d’organisations et d’expériences pour nous assurer que la bibliothèque de voix de WellSaid Labs reflète ses créateurs et son public. Ces processus sont conçus pour être intentionnels et axés sur les détails pour nous assurer que notre technologie est utilisée de manière sûre et éthique, ce qui peut ralentir le développement et le lancement de la feuille de route.

Quelle est votre vision pour l’avenir des voix IA génératives ?

Pendant très longtemps, la technologie de la parole IA n’a pas atteint une qualité suffisamment élevée pour permettre aux entreprises de créer du contenu significatif à grande échelle. Maintenant que la technologie audio n’exige plus d’équipement coûteux et de matériel, tout contenu écrit peut être produit et publié dans un format audio pour créer des expériences engageantes et multimodales.

Aujourd’hui, les voix IA peuvent produire de l’audio de qualité humaine et capturer les nuances nécessaires pour rendre la narration numérique plus accessible et naturelle. L’avenir de la voix IA générative sera constitué d’expériences audibles globales qui touchent tous les aspects de notre vie. À mesure que la technologie continuera de progresser, nous verrons des voix synthétiques de plus en plus naturelles et expressives qui effaceront la frontière entre la parole humaine et la parole générée par machine – ouvrant de nouvelles portes pour les entreprises, les communications, l’accessibilité et la façon dont nous interagissons avec le monde qui nous entoure.

Les entreprises trouveront une personnalisation améliorée dans les interfaces vocales IA et les utiliseront pour rendre les interactions avec les assistants virtuels plus immersives et plus conviviales. Ces améliorations sont déjà en cours, des agents de centre d’appel intelligents aux guichets de restauration rapide. La création de contenu, y compris la publicité, le marketing de produits, la narration d’actualités, les podcasts, les livres audio et d’autres médias, verra une efficacité accrue en utilisant des outils pour développer du contenu engageant – augmentant en fin de compte le levier et les revenus pour les organisations, en particulier maintenant que les modèles multilingues peuvent étendre la portée d’une entreprise d’un seul point d’origine à une présence mondiale. Les équipes de production trouveront un grand avantage dans les voix synthétiques pour créer des voix sur mesure pour la marque ou personnalisées pour l’auditeur.

Avant l’introduction de l’IA, la technologie TTS manquait de l’émotion humaine, de l’intonation et de la capacité de prononciation nécessaires pour raconter une histoire complète à grande échelle et avec facilité. Maintenant, la TTS alimentée par IA offre des expériences plus immersives et accessibles, notamment des capacités de parole en temps réel et des agents de conversation interactifs.

Atteindre des capacités de parole humaines a été un voyage, mais maintenant que c’est réalisable, nous sommes témoins de la portée complète de la voix IA pour créer une véritable valeur commerciale pour les organisations.

Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter WellSaid Labs.

Unite.AI

Matt Hocking, Co-Fondateur de WellSaid Labs – Série d’entretiens

You may like