Interviste
Matt Hocking, Co-Fondatore di WellSaid Labs – Serie di Interviste

Matt Hocking è il co-fondatore di WellSaid Labs, un’azienda leader nel settore della generazione di voci sintetiche AI di livello aziendale. Ha più di 15 anni di esperienza nella gestione di team e nella fornitura di soluzioni tecnologiche su larga scala.
Il tuo background è piuttosto imprenditoriale, come sei entrato inizialmente in contatto con l’AI?
Immagino di essermi sempre considerato piuttosto imprenditoriale. Ho iniziato la mia prima attività dopo il college e, con una formazione in design di prodotto, mi sono trovato a gravitare verso l’aiuto di persone con idee in fase iniziale. Nel corso della mia carriera, sono stato abbastanza fortunato da lavorare con un certo numero di startup che hanno avuto alcune corsie piuttosto incredibili. Durante queste esperienze, ho avuto l’opportunità di conoscere molti fondatori eccezionali a stretto contatto, il che mi ha ispirato a perseguire le mie idee come fondatore. L’AI era relativamente nuova per me quando mi sono unito ad AI2; tuttavia, quell’esperienza mi ha fornito l’opportunità di applicare la mia prospettiva sui prodotti e le startup a ricerche veramente incredibili e di immaginare come questi nuovi progressi sarebbero stati in grado di aiutare molte persone negli anni a venire. Il mio obiettivo fin dall’inizio è stato quello di sviluppare aziende reali per persone reali, e credo che l’AI abbia il potenziale per creare molte opportunità emozionanti e aumenti di efficienza nel nostro futuro, se applicata con attenzione.
Puoi condividere la storia di come l’idea di WellSaid Labs è stata concepita quando eri un imprenditore in residenza presso The Allen Institute for AI?
Mi sono unito all’Istituto Allen per l’Intelligenza Artificiale (AI2) come imprenditore in residenza nel 2018. Probabilmente l’incubatore più innovativo del mondo, AI2 ospita le menti più brillanti nell’AI che applicano soluzioni dall’orlo di ciò che è possibile oggi a prodotti tangibili che risolvono problemi in tutto il mondo. La mia formazione in design e tecnologia ha nutrito un lungo interesse per i campi creativi, e con l’esplosione dell’AI che stiamo tutti testimoniando oggi, volevo esplorare un modo per collegare i due. Sono stato presentato a Michael Petrochuk (co-fondatore e CTO di WellSaid Labs) mentre sviluppavo un’applicazione sanitaria interattiva che guidava il paziente attraverso vari scenari sensibili. Durante il processo di sviluppo del contenuto per l’esperienza, il mio team ha lavorato con talenti vocali per registrare preventivamente migliaia di linee di voce per l’avatar. Quando sono stato esposto a alcuni dei progressi che Michael aveva raggiunto durante la sua ricerca, abbiamo entrambi rapidamente visto il valore di come la sintesi vocale di parità umana potesse trasformare non solo il prodotto su cui stavo lavorando, ma anche avere un impatto su numerose altre applicazioni e settori. La tecnologia e gli strumenti hanno faticato a stare al passo con le esigenze dei produttori che creano con la voce come mezzo. Abbiamo visto un percorso per mettere questa tecnologia nelle mani di tutti i creatori, consentendo alla voce di essere una parte integrante di tutte le storie.
WellSaid Labs è una delle poche aziende che fornisce ai doppiatori vocali un canale per entrare nello spazio della voce sintetica. Perché hai ritenuto importante integrare voci reali nel prodotto?
La nostra risposta a questo è duplice: in primo luogo, abbiamo voluto creare soluzioni che complementino le capacità dei doppiatori vocali professionisti, ampliando le opportunità per la voce. E in secondo luogo, ci impegniamo ad avere il livello più alto di qualità umana nei nostri prodotti. I nostri doppiatori vocali sono partner collaborativi a lungo termine e ricevono compensi e dividendi per i loro dati vocali e il contenuto successivamente prodotto con essi. Ogni doppiatore vocale che assumiamo per creare un avatar di voce sintetica basato sulla somiglianza della sua voce viene pagato in base a quanto la sua voce viene utilizzata sulla nostra piattaforma. Incoraggiamo i talenti a collaborare con noi; una compensazione equa per i loro contributi è incredibilmente importante per noi.
Per offrire il livello più alto di prodotti di qualità umana sul mercato, dobbiamo essere rigorosi su dove otteniamo i nostri dati. Questo processo ci dà più controllo sulla qualità, poiché addestriamo i nostri modelli di apprendimento profondo per parlare sia alla parità umana che a stili specificamente rilevanti nel contesto. Non creiamo solo una voce che recita l’input fornito. I nostri modelli offrono una varietà di stili vocali che eseguono ciò che è sulla pagina. Sia che gli utenti stiano creando voce fuori campo utilizzando un avatar dalla nostra libreria o creando voce fuori campo con una voce personalizzata per il loro marchio, utilizziamo dati vocali reali per garantire un processo senza soluzione di continuità e una piattaforma facile da usare. Se i nostri clienti dovessero manipolare e modificare le nostre voci in post-produzione, il processo di ottenere l’output desiderato sarebbe goffo e lungo. Le nostre voci prendono il contesto del contenuto scritto e forniscono una lettura accurata nel contesto. Offriamo voci per tutti i tipi di casi d’uso – sia che si tratti di leggere le notizie, creare un annuncio audio o supporto per call center automatizzato – quindi la collaborazione con talenti vocali professionisti specifici per ogni caso d’uso ci fornisce sia il contesto che i dati vocali di alta qualità.
Regolarmente aggiorniamo e aggiungiamo nuovi stili e accenti alla nostra libreria di avatar per garantire di rappresentare le voci dei nostri clienti. Nello Studio di WellSaid Labs, i clienti e i marchi possono ascoltare diverse voci in base alla regione, allo stile e al caso d’uso, consentendo una produzione di contenuto audio più fluida e unificata personalizzata alle esigenze del creatore. Una volta che una registrazione iniziale è stata campionata, gli utenti possono richiamare parole, ortografie e pronunce specifiche per garantire che l’AI parli costantemente in base alle loro esigenze specifiche.
WellSaid Labs sta affermando la sua posizione come prima piattaforma di voce sintetica etica. Perché l’etica dell’AI è importante per te?
Man mano che l’adozione dell’AI aumenta e diventa più mainstream, le paure di casi d’uso dannosi e di attori malintenzionati sono al centro di ogni conversazione – e queste preoccupazioni sono purtroppo validate da eventi reali. La voce sintetica dell’AI non fa eccezione; quasi ogni giorno, un nuovo rapporto su un personaggio famoso, una figura pubblica o un politico che viene clonato per spot pubblicitari o scopi politici fa notizia. Sebbene la regolamentazione federale formale su questa tecnologia sia ancora in evoluzione, rilevare e contrastare attori e utilizzi malintenzionati della voce sintetica diventerà sempre più difficile man mano che la tecnologia continuerà ad avanzare.
Provenendo da AI2, dove l’etica dell’AI è un principio fondamentale, Michael e io abbiamo avuto queste conversazioni fin dal primo giorno. Sviluppare tecnologia di sintesi vocale dell’AI comporta notevoli responsabilità riguardo al consenso, alla privacy e alla sicurezza generale. Sappiamo che noi, come sviluppatori, dobbiamo costruire la nostra tecnologia in modo sicuro, affrontare le preoccupazioni etiche e gettare le basi per lo sviluppo futuro di voci sintetiche. Riconosciamo il potenziale della tecnologia di sintesi vocale dell’AI per un uso improprio e accettiamo la nostra responsabilità per ridurre il potenziale uso improprio del nostro prodotto. Dobbiamo gettare queste basi fin dal primo giorno, piuttosto che correre velocemente e fare errori lungo la strada. Ciò non sarebbe fare ciò che è giusto per i nostri clienti aziendali e i doppiatori vocali, che contano su di noi per costruire un prodotto di alta qualità e affidabile.
Sosteniamo appieno l’appello per una legislazione in questo settore; tuttavia, non aspetteremo che le norme federali vengano promulgate. Abbiamo sempre prioritizzato e continueremo a dare priorità a pratiche che supportano la privacy, la sicurezza, la trasparenza e la responsabilità.
Ci atteniamo strettamente al nostro codice etico di intenti, che si basa sulla costruzione di innovazione responsabile in ogni decisione che prendiamo. Ciò è nell’interesse migliore dei nostri clienti globali – marchi aziendali.
Come sviluppi una piattaforma di voce sintetica etica?
WellSaid Labs si è impegnata fin dall’inizio nell’innovazione etica. Centralizziamo la fiducia e la trasparenza attraverso l’uso di modelli di dati interni, requisiti di consenso esplicito, il nostro programma di moderazione dei contenuti e il nostro impegno per la protezione del marchio. In WellSaid, ci appoggiamo ai principi di AI Responsabile per plasmare le nostre decisioni e progetti, e quei principi si estendono all’uso delle nostre voci. Il nostro codice etico rappresenta questi principi come Responsabilità, Trasparenza, Privacy e Sicurezza, e Equità.
Responsabilità: Manteniamo standard severi per contenuti appropriati, vietando l’uso delle nostre voci per contenuti che sono dannosi, odiosi, fraudolenti o destinati a incitare alla violenza. Il nostro team di Fiducia e Sicurezza mantiene questi standard con un rigoroso programma di moderazione dei contenuti, bloccando e rimuovendo gli utenti che tentano di violare i nostri Termini di Servizio.
Trasparenza: Richiediamo il consenso esplicito prima di costruire una voce sintetica con i dati vocali di qualcuno. Gli utenti non possono caricare dati vocali di politici, celebrità o chiunque altro per creare un clone della loro voce a meno che non abbiamo il consenso esplicito e scritto di quella persona.
Privacy e Sicurezza: Proteggiamo le identità dei nostri doppiatori vocali utilizzando immagini stock e pseudonimi per rappresentare le voci sintetiche. Incoraggiamo anche loro a esercitare cautela su come e con chi condividono la loro associazione con WellSaid Labs o altre aziende di voce sintetica per ridurre l’opportunità di abuso della loro voce.
Equità: Compensiamo tutti i doppiatori vocali che forniscono dati vocali per la nostra piattaforma e forniamo loro una quota dei ricavi continuativa per l’uso della voce sintetica che costruiamo con i loro dati.
Insieme a questi principi, rispettiamo anche strettamente la proprietà intellettuale. Non rivendichiamo la proprietà del contenuto fornito dai nostri utenti o doppiatori vocali. Prioritizziamo l’integrità, l’equità e la trasparenza in tutto ciò che facciamo, garantendo che la nostra tecnologia di sintesi vocale dell’AI venga utilizzata in modo responsabile ed etico. Cerchiamo attivamente partnership con voci di diversi background ed esperienze per garantire che WellSaid Labs offra una voce per tutti.
Il nostro impegno per l’innovazione responsabile e lo sviluppo della tecnologia di voce sintetica dell’AI con una mentalità etica ci distingue da altri nel settore che stanno cercando di capitalizzare un’industria nuova e non regolamentata con qualsiasi mezzo. I nostri investimenti precoci in etica, sicurezza e privacy stabiliscono fiducia e lealtà all’interno dei nostri doppiatori vocali e clienti, che cercano sempre più prodotti e servizi eticamente realizzati dalle aziende all’avanguardia dell’innovazione.
WellSaid Labs ha creato il proprio modello di AI interno che ha consentito alle voci sintetiche dell’AI di raggiungere la parità umana, e ciò è stato possibile introducendo le imperfezioni umane nelle conversazioni. Cosa c’è in queste imperfezioni che rende l’AI migliore, e come vengono implementate queste imperfezioni?
WellSaid Labs non è solo un altro generatore di sintesi vocale del testo. Mentre la tecnologia di sintesi vocale del testo iniziale non era in grado di riconoscere le qualità del linguaggio umano come il tono, il tono e il dialetto che trasmettono il contesto e l’emozione dietro le parole, le voci di WellSaid hanno raggiunto la parità umana, portando imperfezioni umane uniche alla sintesi vocale dell’AI.
La nostra misura principale della qualità della voce è e sarà sempre la naturalità umana. Questa convinzione guida ha plasmato la nostra tecnologia a ogni fase, dalle librerie di script che abbiamo costruito alle istruzioni che diamo ai talenti e, più recentemente, a come iteriamo sui nostri algoritmi di sintesi vocale del testo di base.
Addestriamo su vocalizzazioni umane autentiche. I nostri talenti vocali leggono i loro script in modo autentico e coinvolgente quando registrano per noi. La perfezione del discorso, d’altra parte, è un concetto meccanico che porta a un output robotico e innaturale. Quando i talenti vocali professionisti si esibiscono, la loro velocità di parlato fluttua. La loro sonorità si muove in concomitanza con il contenuto che stanno leggendo. Il loro pitch vocale può salire in un passaggio che richiede una lettura emozionata e scendere di nuovo in una linea più sobria. Queste variazioni dinamiche compongono una performance vocale umana coinvolgente.
Costruendo processi di AI che lavorano in coordinamento con le esecuzioni dinamiche dei nostri talenti vocali professionisti, abbiamo costruito una piattaforma di sintesi vocale del testo veramente naturale. Abbiamo sviluppato il primo sistema di sintesi vocale del testo a lungo termine con controlli predittivi in tutto il processo creativo. La nostra libreria fonetica contiene una raccolta diversificata di dati audio, che consente agli utenti di incorporare suggerimenti vocali specifici, come la guida alla pronuncia o la controllabilità, nel modello durante la fase di produzione. Su una sola piattaforma, gli utenti di WellSaid possono registrare, modificare e stilizzare la loro voce fuori campo senza dover importare dati esterni.
Puoi discutere alcune delle sfide dietro la costruzione di un’azienda di sintesi vocale del testo (TTS) dell’AI?
Lo sviluppo della tecnologia di voce sintetica dell’AI ha creato un insieme completamente nuovo di ostacoli sia per i produttori che per i consumatori. Una delle principali sfide è non farsi travolgere dal rumore e dall’ipér che inonda il settore dell’AI. Come tecnologia nuova e alla moda, molte organizzazioni stanno cercando di capitalizzare gli sviluppi a breve termine della voce sintetica dell’AI. Vogliamo fornire una voce per tutti, guidata da principi etici centrali e autenticità. Questa adesione all’autenticità può ritardare lo sviluppo e il deploy della nostra tecnologia, ma consolida la sicurezza e la sicurezza delle voci di WellSaid e dei loro dati.
Un’altra sfida nello sviluppo della nostra piattaforma di sintesi vocale del testo è stata quella di sviluppare linee guida di consenso specifiche per garantire che le organizzazioni o gli attori individuali non abusino della nostra tecnologia. Per contrastare questa sfida, cerchiamo partnership collaborative e a lungo termine e siamo pienamente coinvolti nello sviluppo della voce fuori campo per aumentare la responsabilità, la trasparenza e la sicurezza degli utenti. Cerchiamo attivamente partnership con talenti vocali provenienti da diversi background, organizzazioni ed esperienze per garantire che la libreria di voci di WellSaid Labs rifletta i suoi creatori e il pubblico. Questi processi sono progettati per essere intenzionali e dettagliati per garantire che la nostra tecnologia venga utilizzata in modo il più sicuro e etico possibile, il che può rallentare la timeline di sviluppo e lancio.
Qual è la tua visione per il futuro delle voci generative dell’AI?
Per molto tempo, la tecnologia di voce sintetica dell’AI non ha raggiunto una qualità sufficientemente alta per consentire alle aziende di creare contenuti significativi su larga scala. Ora che la tecnologia audio non richiede più attrezzature e hardware costosi, tutto il contenuto scritto può essere prodotto e pubblicato in formato audio per creare esperienze coinvolgenti e multimediali.
Oggi, le voci sintetiche dell’AI possono produrre audio simile a quello umano e catturare le sfumature necessarie per rendere la narrazione digitale più accessibile e naturale. Il futuro della voce sintetica generativa dell’AI sarà costituito da esperienze udibili onnicomprensive che toccheranno ogni aspetto della nostra vita. Man mano che la tecnologia continuerà ad avanzare, vedremo voci sintetiche sempre più naturali e espressive che sfumano la linea tra discorso umano e macchina – aprendo nuove porte per le aziende, le comunicazioni, l’accessibilità e il modo in cui interagiamo con il mondo intorno a noi.
Le aziende troveranno un miglioramento della personalizzazione nelle interfacce di voce dell’AI e le useranno per rendere le interazioni con gli assistenti virtuali più immersive e user-friendly. Questi miglioramenti stanno già accadendo, dalle agenzie di call center intelligenti ai drive-thru dei fast food. La creazione di contenuti, compresa la pubblicità, il marketing dei prodotti, la narrazione delle notizie, i podcast, gli audiolibri e altri media, vedrà un aumento dell’efficienza utilizzando strumenti per sviluppare contenuti coinvolgenti – aumentando in definitiva il sollevamento e i ricavi per le organizzazioni, specialmente ora che i modelli multilingue possono espandere la presenza di un’azienda da un unico punto di origine a una presenza globale. I team di produzione troveranno un grande beneficio nelle voci sintetiche per creare voci su misura per le esigenze del marchio o personalizzate per l’ascoltatore.
Prima dell’introduzione dell’AI, la tecnologia di sintesi vocale del testo mancava della capacità di emozione, intonazione e pronuncia umana necessarie per raccontare una storia completa su larga scala e con facilità. Ora, la sintesi vocale del testo alimentata dall’AI offre esperienze più immersive e accessibili, comprese le capacità di discorso in tempo reale e gli agenti conversazionali interattivi.
Raggiungere capacità di discorso simili a quelle umane è stato un viaggio, ma ora che è raggiungibile, stiamo testimoniando la portata completa della voce sintetica dell’AI per creare un valore aziendale reale per le organizzazioni.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare WellSaid Labs.












