Interviuri
Matt Hocking, Co-Fondator al WellSaid Labs – Seria de Interviuri

Matt Hocking este co-fondatorul WellSaid Labs, o companie de top care oferă generatoare de voce AI de înaltă calitate pentru întreprinderi. El are peste 15 ani de experiență în conducerea de echipe și furnizarea de soluții tehnologice la scară largă.
Fundalul dvs. este destul de antreprenorial, cum ați fost implicat inițial în AI?
Cred că m-am considerat întotdeauna destul de antreprenorial. Am început prima mea afacere după facultate și, având o bază în design de produs, m-am orientat spre a ajuta oamenii cu idei în stadiu incipient. De-a lungul carierei mele, am avut norocul să lucrez cu o serie de startup-uri care au avut parte de evoluții incredibile. În timpul acestor experiențe, am avut ocazia să întâlnesc mulți fondatori talentați, ceea ce m-a inspirat să urmăresc propriile mele idei ca fondator. AI era relativ nou pentru mine când am intrat la AI2; cu toate acestea, această experiență mi-a oferit oportunitatea de a aplica perspectiva mea de produs și startup la unele cercetări uimitoare și de a imagina cum aceste noi progrese vor putea ajuta multe persoane în anii următori. Scopul meu de la început a fost să dezvolt afaceri reale pentru oameni reali, și cred că AI are potențialul de a crea o mulțime de oportunități și eficiență în viitorul nostru, dacă este aplicat cu grijă.
Ne puteți împărtăși povestea despre cum a apărut ideea pentru WellSaid Labs când erați antreprenor în cadrul Institutului Allen pentru Inteligență Artificială?
Am intrat în Institutul Allen pentru Inteligență Artificială (AI2) ca antreprenor în 2018. Fără îndoială, acesta este cel mai inovator incubator din lume, AI2 adăpostește cele mai strălucite minți din domeniul AI care aplică soluții de la marginea a ceea ce este posibil astăzi la produse tangibile care rezolvă probleme din întreaga lume. Fundalul meu în design și tehnologie a hrănit o interes de lungă durată pentru domeniile creative, și, având în vedere boomul AI pe care îl trăim astăzi, am vrut să explorez o modalitate de a conecta cele două. Am fost introdus lui Michael Petrochuk (co-fondator și CTO al WellSaid Labs) în timp ce dezvoltam o aplicație interactivă de sănătate care ghida pacientul prin diverse scenarii sensibile. În timpul procesului de dezvoltare a conținutului pentru această experiență, echipa mea a lucrat cu talente vocale pentru a preînregistra mii de linii de voce pentru avatar. Când am fost expus la unele dintre realizările lui Michael din timpul cercetărilor sale, am văzut rapid valoarea modului în care text-to-speech (TTS) de calitate umană ar putea transforma nu numai produsul pe care îl lucram, ci și impacta o serie de alte aplicații și industrii. Tehnologia și instrumentele au luptat să țină pasul cu nevoile producătorilor care creează cu vocea ca mediu. Am văzut o cale de a pune această tehnologie la dispoziția tuturor creatorilor, permițând vocilor să fie o parte integrantă a tuturor poveștilor.
WellSaid Labs este una dintre puținele companii care oferă actorilor de voce o cale de acces în spațiul de voce sintetică. De ce ați crezut că este important să integrați vocile reale în produs?
Răspunsul nostru la aceasta este dublu: în primul rând, am vrut să creăm soluții care să completeze capacitățile actorilor de voce profesioniști, extinzând oportunitățile pentru voce. În al doilea rând, ne străduim să avem cel mai înalt nivel de calitate umană în produsele noastre. Actorii noștri de voce sunt parteneri de lungă durată și primesc compensații și dividende pentru datele lor vocale și pentru conținutul produs ulterior cu acestea. Fiecare actor de voce pe care îl angajăm pentru a crea un avatar de voce AI bazat pe asemănarea vocii sale este plătit în funcție de cât de mult este utilizată vocea sa pe platforma noastră. Încurajăm talentele să se asocieze cu noi; compensația corectă pentru contribuțiile lor este incredibil de importantă pentru noi.
Pentru a oferi produse de cea mai înaltă calitate umană de pe piață, trebuie să fim riguroși în ceea ce privește sursa noastră de date. Acest proces ne oferă mai mult control asupra calității, deoarece antrenăm modelele noastre de învățare profundă pentru a vorbi atât la paritate umană, cât și la stiluri contextuale relevante. Nu creăm doar o voce care recită inputul furnizat. Modelele noastre oferă o varietate de stiluri de voce care efectuează ceea ce este pe pagină. Indiferent dacă utilizatorii noștri creează voce prin utilizarea unui avatar din biblioteca noastră sau creează voce cu o voce personalizată pentru marca lor, utilizăm date reale de voce pentru a asigura un proces fără probleme și o platformă ușor de utilizat. Dacă clienții noștri ar trebui să manipuleze și să editeze vocile noastre în post-producție, procesul de obținere a output-ului dorit ar fi încet și lung. Vocii noastre iau în considerare contextul conținutului scris și oferă o citire contextualmente precisă. Oferim voci pentru toate tipurile de cazuri de utilizare – indiferent dacă este vorba de citirea știrilor, crearea unui anunț audio sau a unui sistem de suport pentru centrele de apel automate – astfel încât asocierea cu talente vocale profesioniști pentru fiecare caz de utilizare ne oferă atât context, cât și date vocale de înaltă calitate.
Ne actualizăm și adăugăm în mod regulat noi stiluri și accente în biblioteca noastră de avatare pentru a ne asigura că reprezentăm vocile clienților noștri. În Studio WellSaid Labs, clienții și mărcile noastre pot audia diferite voci în funcție de regiune, stil și caz de utilizare, permițând o producție mai fără probleme și unificată a conținutului audio personalizat în funcție de nevoile creatorului. Odată ce o înregistrare inițială este eșantionată, utilizatorii pot comanda cuvinte, ortografie și pronunții specifice pentru a se asigura că AI vorbește în mod consecvent în funcție de nevoile lor.
WellSaid Labs și-a revendicat poziția de primă platformă etică de voce AI. De ce sunt etica AI importantă pentru dvs.?
Pe măsură ce adoptarea AI crește și devine mai mainstream, temerile de cazuri de utilizare dăunătoare și actori răi se află în centrul fiecărei conversații – și aceste preocupări sunt, din nefericire, validate de evenimente din lumea reală. Vocea AI nu face excepție; aproape în fiecare zi, un nou raport despre o celebritate, o persoană publică sau un politician care este deepfake-uit pentru reclame sau scopuri politice face știri. Deși reglementarea formală federală cu privire la această tehnologie este încă în evoluție, detectarea și combaterea actorilor și utilizărilor malefice ale vocii sintetice va deveni tot mai dificilă pe măsură ce tehnologia continuă să progreseze.
Venind de la AI2, unde etica AI este un principiu de bază, Michael și eu am avut aceste conversații din prima zi. Dezvoltarea tehnologiei de vorbire AI vine cu responsabilități semnificative în ceea ce privește consimțământul, confidențialitatea și siguranța generală. Știm că, ca dezvoltatori, trebuie să construim tehnologia noastră în siguranță, să abordăm preocupările etice și să punem bazele pentru dezvoltarea viitoare a vocii sintetice. Recunoaștem potențialul tehnologiei de vorbire AI pentru utilizări abuzive și ne asumăm responsabilitatea de a reduce posibilitatea de utilizare abuzivă a produsului nostru. Trebuie să punem această bază din prima zi, și nu să ne grăbim și să facem greșeli pe parcurs. Acest lucru nu ar fi corect față de clienții noștri de întreprindere și actorii de voce, care se bazează pe noi pentru a construi un produs de înaltă calitate și de încredere.
Suntem pe deplin de acord cu apelul pentru legislație în acest domeniu; cu toate acestea, nu vom aștepta reglementări federale să fie adoptate. Am prioritizat și vom continua să prioritizăm practicile care sprijină confidențialitatea, securitatea, transparența și răspunderea.
Ne conformăm strict codului nostru de intenție etică, care se bazează pe inovare responsabilă în fiecare decizie pe care o luăm. Acest lucru este în cel mai bun interes al clienților noștri globali – mărci de întreprindere.
Cum dezvoltați o platformă etică de voce AI?
WellSaid Labs s-a angajat să inoveze în mod etic de la început. Centralizăm încrederea și transparența prin utilizarea modelelor de date interne, a cerințelor de consimțământ explicit, a programului nostru de moderare a conținutului și a angajamentului nostru față de protecția mărcilor. La WellSaid, ne bazăm pe principiile Responsible AI pentru a modela deciziile și proiectele noastre, și aceste principii se extind la utilizarea vocilor noastre. Codul nostru de etică reprezintă aceste principii ca Răspundere, Transparență, Confidențialitate și Securitate, și Echitate.
Răspundere: Menținem standarde stricte pentru conținutul adecvat, interzicând utilizarea vocilor noastre pentru conținut care este dăunător, urât, fraudulos sau destinat să incite la violență. Echipa noastră de Încredere și Siguranță menține aceste standarde prin intermediul unui program riguros de moderare a conținutului, blocând și eliminând utilizatorii care încearcă să încalce Termenii noștri de Serviciu.
Transparență: Cerem consimțământ explicit înainte de a construi o voce sintetică cu datele vocale ale cuiva. Utilizatorii nu pot încărca date vocale de la politicieni, celebrități sau oricine altcineva pentru a crea o clonă a vocii lor, dacă nu avem consimțământul scris explicit al acelei persoane.
Confidențialitate și Securitate: Protejăm identitățile actorilor noștri de voce prin utilizarea de imagini stoc și pseudonime pentru a reprezenta vocile sintetice. Îi încurajăm, de asemenea, să exercite prudență cu privire la modul și cu cine împărtășesc asocierea lor cu WellSaid Labs sau alte companii de voce sintetică pentru a reduce oportunitatea de utilizare abuzivă a vocii lor.
Echitate: Compensăm toți actorii de voce care ne furnizează date vocale pentru platforma noastră și le oferim o cotă de venit continuă pentru utilizarea vocii sintetice pe care o construim cu datele lor.
Împreună cu aceste principii, respectăm și drepturile de proprietate intelectuală. Nu pretindem drepturi de proprietate asupra conținutului furnizat de utilizatorii noștri sau actorii de voce. Prioritizăm integritatea, echitatea și transparența în tot ceea ce facem, asigurându-ne că tehnologia noastră de vorbire sintetică este utilizată în mod responsabil și etic. Căutăm activ parteneriate cu voci din diverse medii și experiențe pentru a ne asigura că WellSaid Labs oferă o voce pentru toată lumea.
Angajamentul nostru față de inovarea responsabilă și dezvoltarea tehnologiei de voce AI cu mintea la etică ne diferențiază de alții din domeniu care încearcă să capitalizeze pe o industrie nouă și necontrolată prin orice mijloace. Investițiile noastre timpurii în etică, siguranță și confidențialitate stabilesc încredere și loialitate în rândul actorilor noștri de voce și clienților, care tot mai mult caută produse și servicii etice de la companiile care se află în fruntea inovației.
WellSaid Labs a creat propriul model AI care a permis vocilor sale AI să atingă paritatea umană, și a realizat acest lucru prin aducerea imperfecțiunilor umane în conversații. Ce este atât de special despre aceste imperfecțiuni care fac AI-ul mai bun, și cum sunt implementate aceste imperfecțiuni?
WellSaid Labs nu este doar un alt generator TTS. În timp ce tehnologia TTS timpurie nu a putut recunoaște calitățile vorbirii umane, cum ar fi pitch-ul, tonul și dialectul care transmit contextul și emoția din spatele cuvintelor, vocile WellSaid au atins paritatea umană, aducând imperfecțiuni umane unice în vorbirea generată de AI.
Măsura noastră principală a calității vocii este și a fost întotdeauna naturalitatea umană. Această convingere ghidată a modelat tehnologia noastră la fiecare etapă, de la bibliotecile de scripturi pe care le-am construit la instrucțiunile pe care le dăm talentelor și, mai recent, la modul în care iterăm algoritmii noștri TTS de bază.
Ne antrenăm pe vocalizări umane autentice. Talentele noastre vocale citesc scripturile în mod autentic și captivant atunci când înregistrează pentru noi. Perfecțiunea vorbirii, pe de altă parte, este un concept mecanic care conduce la un output flawless, dar robotic și nenatural. Când talentele vocale profesionale interpretează, rata lor de vorbire fluctuează. Volumul lor se mișcă în conjuncție cu conținutul pe care îl citesc. Pitch-ul lor vocal poate crește într-un pasaj care necesită o citire entuziastă și poate scădea din nou într-un rând mai solemn. Aceste variații dinamice alcătuiesc o interpretare vocală umană captivantă.
Prin construirea proceselor AI care lucrează în coordonare cu interpretările dinamice ale talentelor noastre profesionale, am construit o platformă TTS cu adevărat naturală. Am dezvoltat primul sistem TTS de lungă durată cu controale predictive pe tot parcursul procesului creativ. Biblioteca noastră fonetică deține o colecție diversă de date audio, permițând utilizatorilor să incorporeze anumite indicii vocale, cum ar fi îndrumarea pronunției sau controlabilitatea, în model în timpul fazei de producție. Într-o singură platformă, utilizatorii WellSaid pot înregistra, edita și stiliza vocea lor fără a necesita importarea de date externe.
Ne puteți discuta despre unele dintre provocările din spatele construirii unei companii de voce AI text-to-speech (TTS)?
Dezvoltarea tehnologiei de voce AI a creat un set complet nou de obstacole atât pentru producători, cât și pentru consumatori. Una dintre principalele provocări este să nu te lași prins în zgomotul și hype-ul care inundează sectorul AI. Ca o tehnologie nouă și senzațională, multe organizații încearcă să profite de dezvoltările pe termen scurt ale vocii AI. Vrem să oferim o voce pentru toată lumea, ghidată de principii etice centrale și autenticitate. Această adeziune la autenticitate poate întârzia dezvoltarea și implementarea tehnologiilor noastre, dar consolidează siguranța și securitatea vocilor WellSaid și a datelor lor.
O altă provocare în dezvoltarea platformei noastre TTS a fost dezvoltarea unor ghiduri de consimțământ specifice pentru a ne asigura că organizațiile sau actorii individuali nu vor abuza de tehnologia noastră. Pentru a combate această provocare, căutăm parteneriate colaborative pe termen lung și suntem implicați în mod deplin în dezvoltarea de voce pentru a crește răspunderea, transparența și securitatea utilizatorului. Căutăm activ parteneriate cu talente vocale din diverse medii, organizații și experiențe pentru a ne asigura că biblioteca noastră de voci reflectă creatorii și publicul nostru. Aceste procese sunt concepute pentru a fi intenționate și atente la detalii pentru a ne asigura că tehnologia noastră este utilizată în mod sigur și etic, ceea ce poate încetini dezvoltarea și lansarea.
Care este viziunea dvs. asupra viitorului vocilor generative AI?
De ceva timp, tehnologia de vorbire AI nu a atins o calitate suficient de ridicată pentru a permite companiilor să creeze conținut semnificativ la scară. Acum, tehnologia audio nu mai necesită echipamente și hardware scumpe, astfel încât tot conținutul scris poate fi produs și publicat într-un format audio pentru a crea experiențe captivante și multimodale.
Astăzi, vocile AI pot produce audio uman și pot capta nuanța necesară pentru a face povestirea digitală mai accesibilă și naturală. Viitorul vocilor generative AI va fi experiențe auditive cuprinzătoare care ating fiecare aspect al vieții noastre. Pe măsură ce tehnologia continuă să progreseze, vom vedea vocile sintetice din ce în ce mai naturale și expresive care vor estompa linia dintre vorbirea umană și cea generată de mașină – deschizând noi uși pentru afaceri, comunicații, accesibilitate și modul în care interacționăm cu lumea din jurul nostru.
Companiile vor găsi o personalizare îmbunătățită în interfețele de voce AI și le vor utiliza pentru a face interacțiunile cu asistenții virtuali mai imersive și mai prietenoase cu utilizatorul. Aceste îmbunătățiri se întâmplă deja, de la agenți inteligenți de call center la drive-thru-uri de fast-food. Crearea de conținut, inclusiv publicitate, marketing de produs, nararea știrilor, podcast-uri, cărți audio și alte multimedia, va beneficia de eficiență sporită prin utilizarea unor instrumente pentru a dezvolta conținut captivant – în cele din urmă, sporind ridicarea și veniturile pentru organizații, mai ales acum că modelele multilingve pot extinde prezența unei companii de la un singur punct de origine la o prezență globală. Echipele de producție vor găsi un beneficiu semnificativ în vocile sintetice pentru a crea voci personalizate în funcție de nevoile mărcii sau personalizate pentru ascultător.
Înainte de introducerea AI, tehnologia TTS lipsea de emoția umană, intonația și abilitățile de pronunție necesare pentru a spune o poveste completă la scară și cu ușurință. Acum, TTS-ul alimentat de AI oferă experiențe mai imersive și mai accesibile, inclusiv capacități de vorbire în timp real și agenți conversaționali interactivi.
Atingerea capacităților de vorbire umană a fost o călătorie, dar acum că este atinsă, suntem martorii întregului scop al vocii AI pentru a crea valoare reală de afaceri pentru organizații.
Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe ar trebui să viziteze WellSaid Labs.












