Connect with us

Interviews

Matt Hocking, mede-oprichter van WellSaid Labs – Interviewreeks

mm

Matt Hocking is de mede-oprichter van WellSaid Labs, een toonaangevende onderneming op het gebied van AI-voicegeneratie. Hij heeft meer dan 15 jaar ervaring met het leiden van teams en het leveren van technologische oplossingen op grote schaal.

Uw achtergrond is redelijk ondernemend, hoe bent u initieel betrokken geraakt bij AI?

Ik denk dat ik mezelf altijd vrij ondernemend heb beschouwd. Ik startte mijn eerste bedrijf na mijn studie en met een achtergrond in productontwerp, heb ik mezelf aangetrokken gevoeld tot het helpen van mensen met vroege ideeën. Gedurende mijn carrière heb ik het geluk gehad om met een aantal startups te werken die een aantal vrij sensationele runs hebben gehad. Tijdens die ervaringen heb ik veel geweldige oprichters van dichtbij meegemaakt, wat me heeft geïnspireerd om mijn eigen ideeën als oprichter na te streven. AI was relatief nieuw voor me toen ik bij AI2 kwam; echter bood die ervaring me de kans om mijn product- en startupbril te gebruiken voor enkele echt geweldige onderzoeken en me voor te stellen hoe deze nieuwe vooruitgang in de komende jaren in staat zou zijn om veel mensen te helpen. Mijn doel vanaf het begin is geweest om echte bedrijven voor echte mensen te ontwikkelen, en ik geloof dat AI het potentieel heeft om veel spannende kansen en efficiëntie in onze toekomst te creëren als het op een verantwoorde manier wordt toegepast.

Kunt u het verhaal delen over hoe het idee voor WellSaid Labs is ontstaan toen u ondernemer in residence was bij The Allen Institute for AI?

Ik sloot me aan bij The Allen Institute for Artificial Intelligence (AI2) als ondernemer in residence in 2018. Waarschijnlijk de meest innovatieve incubator ter wereld, AI2 herbergt de slimste geesten in AI die oplossingen van de rand van wat vandaag mogelijk is toepassen op tastbare producten die problemen over de hele wereld oplossen. Mijn achtergrond in ontwerp en technologie heeft een langdurige interesse in de creatieve velden gekoesterd, en met de AI-boom die we vandaag meemaken, wilde ik een manier vinden om de twee te verbinden. Ik werd geïntroduceerd bij Michael Petrochuk (mede-oprichter en CTO van WellSaid Labs) terwijl ik een interactieve gezondheidsapp ontwikkelde die de patiënt door verschillende gevoelige scenario’s leidde. Tijdens het proces van het ontwikkelen van de inhoud voor de ervaring, werkte mijn team met voice-talent om duizenden regels voice-over voor de avatar vooraf op te nemen. Toen ik werd blootgesteld aan enkele van de doorbraken die Michael had behaald tijdens zijn onderzoek, zagen we beiden snel de waarde in van hoe menselijke text-to-speech (TTS) niet alleen het product waar ik aan werkte kon transformeren, maar ook een aantal andere toepassingen en industrieën kon beïnvloeden. Technologie en tooling hebben gestreden om de behoeften van producers die met voice als medium creëren, bij te houden. We zagen een pad om deze technologie in handen van alle creators te leggen, waardoor voice een integraal onderdeel van alle verhalen kon zijn.

WellSaid Labs is een van de weinige bedrijven die voice-acteurs een weg biedt naar de AI-voiceover-ruimte. Waarom geloofde u dat het belangrijk was om echte stemmen in het product te integreren?

Ons antwoord is tweeledig: ten eerste wilden we oplossingen creëren die de mogelijkheden van professionele voice-acteurs aanvullen, waardoor er meer kansen voor voice ontstaan. En ten tweede streven we ernaar om het hoogste niveau van menselijke kwaliteit in onze producten te hebben. Onze voice-acteurs zijn langdurige samenwerkingspartners en ontvangen compensatie en winstdeling voor zowel hun voice-data als de daaropvolgende inhoud die met het wordt geproduceerd. Elke voice-actor die we inhuuren om een AI-voice-avatar te creëren op basis van de gelijkenis van hun stem, wordt betaald op basis van hoeveel hun stem op ons platform wordt gebruikt. We moedigen talent aan om met ons te partnerschap; eerlijke compensatie voor hun bijdragen is ontzettend belangrijk voor ons.

Om het hoogste niveau van menselijke kwaliteit producten op de markt te bieden, moeten we streng zijn over waar we onze data vandaan halen. Dit proces geeft ons meer controle over de kwaliteit, aangezien we onze deep learning-modellen trainen om zowel op menselijke pariteit als op specifiek contextueel relevante stijlen te spreken. We creëren niet zomaar een stem die de verstrekte invoer herhaalt. Onze modellen bieden een verscheidenheid aan voice-stijlen die presteren wat er op de pagina staat. Of gebruikers nu voice-over maken door een avatar uit onze bibliotheek te gebruiken of door een aangepaste stem voor hun merk te maken, we gebruiken echte voice-data om een naadloos proces en een gemakkelijk te gebruiken platform te garanderen. Als onze klanten onze stemmen in de postproductie moesten manipuleren en bewerken, zou het proces van het verkrijgen van de gewenste output onhandig en lang zijn. Onze stemmen nemen de context van de geschreven inhoud en bieden een contextueel accurate lezing. We bieden stemmen voor alle soorten use-cases – of het nu gaat om het voorlezen van het nieuws, het maken van een audio-advertentie of geautomatiseerde callcenterondersteuning – dus het partnerschap met professioneel voice-talent voor elk use-case biedt ons zowel de context als de hoge kwaliteit voice-data.

We werken regelmatig bij en voegen nieuwe stijlen en accenten toe aan onze avatar-bibliotheek om ervoor te zorgen dat we de stemmen van onze klanten vertegenwoordigen. In WellSaid Labs’ Studio kunnen klanten en merken verschillende stemmen beluisteren op basis van regio, stijl en use-case, waardoor een meer naadloos en uniform productieproces van audio-inhoud mogelijk wordt gemaakt dat is aangepast aan de behoeften van de maker. Zodra een initiële opname is bemonsterd, kunnen gebruikers specifieke woorden, spellingswijzen en uitspraken aangeven om ervoor te zorgen dat de AI consistent spreekt overeenkomstig hun behoeften.

WellSaid Labs legt zijn claim als het eerste ethische AI-voice-platform. Waarom zijn AI-ethiek belangrijk voor u?

Aangezien de adoptie van AI toeneemt en meer mainstream wordt, zijn angsten over schadelijke use-cases en slechte actoren centraal in elk gesprek – en deze zorgen worden helaas door echte gebeurtenissen in de wereld bewezen. AI-voice is geen uitzondering; vrijwel elke dag komt er een nieuw rapport over een beroemdheid, een openbaar figuur of een politicus die wordt diepgefaked voor advertenties of politieke doeleinden in het nieuws. Hoewel formele federale regulering met betrekking tot deze technologie nog in ontwikkeling is, zal het detecteren en bestrijden van kwaadwillige actoren en het gebruik van synthetische stemmen steeds moeilijker worden naarmate de technologie vordert.

Vanuit AI2, waar AI-ethiek een kernprincipe is, hadden Michael en ik deze gesprekken vanaf de eerste dag. Het ontwikkelen van AI-speechtechnologie komt met aanzienlijke verantwoordelijkheden met betrekking tot toestemming, privacy en algehele veiligheid. We weten dat wij, als ontwikkelaars, onze technologie veilig moeten bouwen, ethische problemen moeten aanpakken en de basis moeten leggen voor de toekomstige ontwikkeling van synthetische stemmen. We erkennen het potentieel van AI-speechtechnologie voor misbruik en omarmen onze verantwoordelijkheid om het potentieel voor misbruik van ons product te verminderen. We moeten deze basis leggen vanaf de eerste dag, in plaats van snel te handelen en onderweg fouten te maken. Dat zou niet juist zijn voor onze ondernemingsklanten en voice-acteurs, die op ons vertrouwen om een product van hoge kwaliteit en een betrouwbaar product te bouwen.

We ondersteunen volledig de oproep tot wetgeving op dit gebied; echter, we zullen niet wachten tot federale regelgeving wordt uitgevaardigd. We hebben altijd prioriteit gegeven aan en zullen blijven prioriteit geven aan praktijken die privacy, beveiliging, transparantie en verantwoordelijkheid ondersteunen.

We houden ons strikt aan onze bedrijfscode van intentie, die is gebaseerd op het bouwen met verantwoorde innovatie in elke beslissing die we nemen. Dit is in het beste belang van onze mondiale klanten – ondernemingsmerken.

Hoe ontwikkelt u een ethisch AI-voice-platform?

WellSaid Labs heeft zich vanaf het begin verplicht tot ethische innovatie. We centraliseren vertrouwen en transparantie door het gebruik van in-house data-modellen, expliciete toestemmingsvereisten, ons contentmoderatieprogramma en ons engagement voor merkbescherming. Bij WellSaid, vertrouwen we op de principes van Responsible AI om onze beslissingen en ontwerpen te vormen, en die principes strekken zich uit tot het gebruik van onze stemmen. Onze code van ethiek vertegenwoordigt deze principes als Verantwoordelijkheid, Transparantie, Privacy en Beveiliging, en Eerlijkheid.

Verantwoordelijkheid: We handhaven strikte standaarden voor geschikte inhoud, waardoor het gebruik van onze stemmen voor inhoud die schadelijk, hatelijk, frauduleus of bedoeld is om geweld aan te wakkeren, wordt verboden. Ons Trust & Safety-team handhaaft deze standaarden met een rigoureus contentmoderatieprogramma, dat gebruikers blokkeert en verwijdert die proberen onze Gebruiksvoorwaarden te schenden.

Transparantie: We vereisen expliciete toestemming voordat we een synthetische stem met iemands stemgegevens bouwen. Gebruikers kunnen geen stemgegevens van politici, beroemdheden of iemand anders uploaden om een kloon van hun stem te maken, tenzij we de expliciete, schriftelijke toestemming van die persoon hebben.

Privacy en Beveiliging: We beschermen de identiteit van onze voice-acteurs door gebruik te maken van voorraadbeelden en aliassen om de synthetische stemmen te vertegenwoordigen. We moedigen hen ook aan om voorzichtig te zijn over hoe en met wie ze hun associatie met WellSaid Labs of andere synthetische stembedrijven delen om de gelegenheid voor misbruik van hun stem te verminderen.

Eerlijkheid: We compenseren alle voice-acteurs die voice-data voor ons platform leveren, en we bieden hen een voortdurende winstdeling voor het gebruik van de synthetische stem die we met hun gegevens bouwen.

Naast deze principes respecteren we ook strikt intellectueel eigendom. We claimen geen eigendom over de inhoud die door onze gebruikers of voice-acteurs wordt verstrekt. We prioriteren integriteit, eerlijkheid en transparantie in alles wat we doen, waardoor onze synthetische spraaktechnologie op een verantwoorde en ethische manier wordt gebruikt. We zoeken actief naar partnerschappen met stemmen uit diverse achtergronden en ervaringen om ervoor te zorgen dat we een stem voor iedereen bieden.

Ons engagement voor verantwoorde innovatie en het ontwikkelen van AI-voice-technologie met ethiek in het achterhoofd onderscheidt ons van anderen in de ruimte die proberen om een nieuwe, ongereguleerde industrie te kapitaliseren via elke middelen. Onze vroege investeringen in ethiek, veiligheid en privacy leggen vertrouwen en loyaliteit vast bij onze voice-acteurs en klanten, die steeds vaker naar ethisch gemaakte producten en diensten van bedrijven aan de vooravond van innovatie zoeken.

WellSaid Labs heeft zijn eigen in-house AI-model gemaakt dat het mogelijk maakt voor AI-stemmen om menselijke pariteit te bereiken, en dit is bereikt door de imperfecties die mensen in gesprekken hebben, toe te voegen. Wat is het aan deze imperfecties dat de AI beter maakt, en hoe worden deze imperfecties geïmplementeerd?

WellSaid Labs is niet zomaar een andere TTS-generator. Waar vroege TTS-technologie niet in staat was om menselijke spraakeigenschappen zoals toon, pitch en dialect te herkennen die de context en emotie achter de woorden overbrengen, hebben WellSaid-stemmen menselijke pariteit bereikt, waardoor uniek menselijke imperfecties in AI-gegenereerde spraak worden gebracht.

Onze primaire maatstaf voor stemkwaliteit is en is altijd menselijke naturaliteit geweest. Dit leidende geloof heeft onze technologie op elk niveau gevormd, van de scriptbibliotheken die we hebben gebouwd tot de instructies die we aan talent geven en, meer recentelijk, hoe we onze core TTS-algoritmen itereren.

We trainen op authentieke menselijke vocalisaties. Ons voice-talent leest hun scripts authentiek en boeiend wanneer ze voor ons opnemen. Spraakperfectie, aan de andere kant, is een mechanisch concept dat leidt tot een robotisch perfecte, onnatuurlijke output. Wanneer professioneel voice-talent presteert, fluctueert hun toespraakssnelheid. Hun luidheid verandert in samenhang met de inhoud die ze lezen. Hun vocale pitch kan stijgen in een passage die een opgewonden lezing vereist en dalen in een meer sombere regel. Deze dynamische variaties maken een boeiende menselijke vocale prestatie uit.

Door AI-processen te bouwen die samenwerken met de dynamische prestaties van ons professionele talent, hebben we een echt natuurlijk TTS-platform gebouwd. We hebben het eerste long-form TTS-systeem met predictieve controles ontwikkeld gedurende het hele creatieve proces. Onze fonetische bibliotheek bevat een diverse verzameling van audio-data, waardoor gebruikers specifieke vocale hints, zoals uitspraakrichtingen of controle, in het model kunnen opnemen tijdens de productiefase. In één platform kunnen WellSaid-gebruikers opnemen, bewerken en styliseren van voice-over zonder externe gegevens te hoeven importeren.

Kunt u enkele van de uitdagingen bespreken die verbonden zijn aan het bouwen van een text-to-speech (TTS) AI-bedrijf?

De ontwikkeling van AI-voice-technologie heeft een geheel nieuwe reeks obstakels gecreëerd voor zowel de producenten als de consumenten. Een van de belangrijkste uitdagingen is niet meegesleept worden in de ruis en de hype die de AI-sector overspoelt. Als een nieuwe, buzzende technologie, proberen veel organisaties om in te kappen op korte-termijn AI-voice-over-ontwikkelingen. We willen een stem voor iedereen bieden, geleid door centrale ethische principes en authenticiteit. Deze toewijding aan authenticiteit kan de ontwikkeling en implementatie van onze technologie vertragen, maar versterkt de veiligheid en beveiliging van WellSaid-stemmen en hun gegevens.

Een andere uitdaging bij het ontwikkelen van ons TTS-platform was het ontwikkelen van specifieke toestemmingsrichtlijnen om ervoor te zorgen dat organisaties of individuele acteurs onze technologie niet zullen misbruiken. Om deze uitdaging aan te pakken, zoeken we naar samenwerkingspartnerschappen en zijn we volledig betrokken bij de ontwikkeling van voice-over om verantwoordelijkheid, transparantie en gebruikersbeveiliging te vergroten. We zoeken actief naar partnerschappen met voice-talent uit diverse achtergronden, organisaties en ervaringen om ervoor te zorgen dat de bibliotheek van WellSaid Labs’ stemmen de makers en het publiek weerspiegelt. Deze processen zijn ontworpen om intentioneel en gedetailleerd te zijn om ervoor te zorgen dat onze technologie zo veilig en ethisch mogelijk wordt gebruikt, wat de ontwikkeling en lanceringstijdlijn kan vertragen.

Wat is uw visie voor de toekomst van generatieve AI-stemmen?

Gedurende de langste tijd heeft AI-speech-technologie niet de benodigde kwaliteit bereikt om bedrijven in staat te stellen om significante inhoud op grote schaal te creëren. Nu audio-technologie geen dure apparatuur en hardware meer vereist, kan alle geschreven inhoud worden geproduceerd en gepubliceerd in een audioformaat om boeiende, multimodale ervaringen te creëren.

Vandaag kunnen AI-stemmen menselijke audio produceren en de nuances vastleggen die nodig zijn om digitale verhalenvertelling meer toegankelijk en natuurlijk te maken. De toekomst van generatieve AI-stem zal alle hoorbare ervaringen omvatten die elk aspect van ons leven aanraken. Naarmate de technologie vordert, zullen we steeds natuurlijkere en expressievere synthetische stemmen zien die de grens tussen menselijke en machine-gegenereerde spraak vervagen – waardoor nieuwe deuren openen voor bedrijven, communicatie, toegankelijkheid en hoe we interactie hebben met de wereld om ons heen.

Bedrijven zullen verhoogde personalisatie vinden in AI-steminterfaces en deze gebruiken om interacties met virtuele assistenten meer immersief en gebruikersvriendelijk te maken. Deze verbeteringen gebeuren al, van intelligente callcenteragenten tot fastfood-drive-thru’s. Contentcreatie, waaronder advertentie, productmarketing, nieuwsvertelling, podcasts, audioboeken en andere multimedia, zal een toename van efficiëntie zien door het gebruik van tools om boeiende inhoud te ontwikkelen – wat uiteindelijk de lift en omzet voor organisaties zal verhogen, vooral nu meertalige modellen een bedrijf in staat stellen om van één punt van oorsprong naar een wereldwijd bereik uit te breiden. Productieteams zullen grote voordelen vinden in synthetische stemmen om stemmen te creëren die zijn aangepast aan de behoeften van het merk of aangepast aan de luisteraar.

Voordat de introductie van AI, ontbrak TTS-technologie de cruciale menselijke emotie, intonatie en uitspraakvaardigheden die nodig zijn om een volledig verhaal op grote schaal en met gemak te vertellen. Nu biedt AI-geactiveerde TTS meer immersieve en toegankelijke ervaringen, waaronder real-time spraakmogelijkheden en interactieve conversatieagenten.

Het bereiken van menselijke spraakmogelijkheden is een reis geweest, maar nu het haalbaar is, zien we de volledige omvang van AI-stem om echte bedrijfswaarde voor organisaties te creëren.

Bedankt voor het geweldige interview, lezers die meer willen leren, moeten WellSaid Labs bezoeken.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.