Rozhovory

Matt Hocking, spoluzakladatel WellSaid Labs – rozhovorová série

Published April 10, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Matt Hocking je spoluzakladatel WellSaid Labs, předního podnikového generátoru AI Voice. Má více než 15 let zkušeností s vedením týmů a dodáváním technologických řešení ve velkém měřítku.

Vaše pozadí je poměrně podnikatelské, jak jste se最初 zapojil do AI?

Předpokládám, že jsem se vždy považoval za bastante podnikatelského. Založil jsem své první podnikání hned po vysoké škole a s pozadím v produktovém designu jsem se cítil přitahován k pomoci lidem s ranými nápady. Během své kariéry jsem měl štěstí pracovat s mnoha startupy, které měly bastante úspěšný běh. Během těchto zkušeností jsem měl možnost setkat se s mnoha skvělémi zakladateli a inspirovat se k tomu, abych sám začal své vlastní nápady jako zakladatel. AI bylo pro mě relativně nové, když jsem se připojil k AI2; nicméně, tato zkušenost mi poskytla příležitost aplikovat svůj produktový a startupový pohled na některé skutečně úžasné výzkumy a představit si, jak tyto nové pokroky budou moci pomoci mnoha lidem v budoucnu. Mým cílem od začátku bylo vyvinout skutečné podniky pro skutečné lidi, a jsem přesvědčen, že AI má potenciál vytvořit banyak zajímavých příležitostí a eficiencí v naší budoucnosti, pokud bude aplikován uvážlivě.

Můžete sdílet příběh o tom, jak vznikl nápad na WellSaid Labs, když jste byl podnikatel v rezidenci v The Allen Institute for AI?

Připojil jsem se k The Allen Institute for Artificial Intelligence (AI2) jako Entrepreneur in Residence v roce 2018. Bezpochyby nejvíce inovativní inkubátor na světě, AI2 je domovem nejjasnějších myslí v AI, které aplikují řešení z okraje toho, co je možné dnes, na hmatatelné produkty, které řeší problémy po celém světě. Můj background v designu a technologii vyživoval dlouhodobý zájem o kreativní obory, a s AI boomem, který všichni svědkujeme dnes, chtěl jsem prozkoumat způsob, jak spojit tyto dvě věci. Byl jsem představen Michaelu Petrochukovi (spoluzakladatel a CTO WellSaid Labs) během vývoje interaktivní zdravotnické aplikace, která vedla pacienta через různé citlivé scénáře. Během procesu vývoje obsahu pro tuto zkušenost, moje tým pracoval s hlasovým talentem, aby předem nahrál tisíce řádků hlasového doprovodu pro avatara. Když jsem byl vystaven některým průlomům, kterých Michael dosáhl během svého výzkumu, jsme oba rychle viděli hodnotu toho, jak lidsky-paritní text-to-speech (TTS) mohl transformovat nejen produkt, na kterém jsem pracoval, ale také ovlivnit řadu dalších aplikací a odvětví. Technologie a nástroje bojovaly s tím, aby držely krok s potřebami producentů, kteří vytvářejí s hlasem jako médium. Viděli jsme cestu k tomu, aby tuto technologii dát do rukou všech tvůrců, umožňující hlas být integrovanou součástí všech příběhů.

WellSaid Labs je jednou z mála společností, které poskytují hlasovým hercům cestu do prostoru AI hlasového doprovodu. Proč jste věřil, že je důležité integrovat skutečné hlasy do produktu?

Naše odpověď na tuto otázku je dvouhlavá: první, chtěli jsme vytvořit řešení, která doplňují schopnosti profesionálních hlasových herců, rozšiřující příležitosti pro hlas. A druhá, usilujeme o to, aby naše produkty měly nejvyšší úroveň lidské kvality. Naši hlasoví herci jsou dlouhodobými spolupracovníky a dostávají odměnu a podíl na výnosu za svá hlasová data a následný obsah vyrobený s nimi. Každý hlasový herec, kterého najmeme, aby vytvořil AI hlasový avatar na základě podobnosti jejich hlasu, je placen na základě toho, jak často je jeho hlas použit na naší platformě. Povzbuzujeme talent, aby se spojil s námi; spravedlivá odměna za jejich příspěvky je pro nás velice důležitá.

Abychom mohli nabízet nejvyšší úroveň lidsky-kvalitních produktů na trhu, musíme být přísní ohledně toho, odkud získáme naše data. Tento proces nám dává více kontroly nad kvalitou, protože naše deep learning modely učíme mluvit både lidsky-paritní a specificky kontextově-relevantní styly. Nejenom vytváříme hlas, který recituje zadaný vstup. Naše modely nabízejí řadu hlasových stylů, které provádějí to, co je na stránce. Bez ohledu na to, zda uživatelé vytvářejí hlasový doprovod pomocí avatara z naší knihovny nebo vytvářejí hlasový doprovod s vlastním hlasem pro svou značku, používáme skutečná hlasová data, aby zajistili bezproblémový proces a snadno použitelnou platformu. Pokud by naši zákazníci museli manipulovat a upravovat naše hlasy v postprodukci, proces získání požadovaného výstupu by byl neohrabaný a dlouhý. Naše hlasy berou kontext psaného obsahu a poskytují kontextově přesné čtení. Nabízíme hlasy pro všechny typy použití – ať už se jedná o čtení zpráv, vytváření audio reklamy nebo automatizovaného call centra – takže partnerství s profesionálními hlasovými herci pro každý případ použití nám poskytuje kontext a kvalitní hlasová data.

Pravidelně aktualizujeme a přidáváme nové styly a akcenty do naší avatar knihovny, aby zajistili, že reprezentujeme hlasy našich zákazníků. V WellSaid Labs’ Studio mohou zákazníci a značky slyšet různé hlasy na základě regionu, stylu a použití, umožňující více bezproblémové a sjednocené produkce audio obsahu personalizovaného pro potřeby tvůrce.

WellSaid Labs je zakládající etickou AI hlasovou platformou. Proč jsou AI etika důležitá pro vás?

Jak se AI adopce zvyšuje a stává se více mainstreamovou, obavy z škodlivých použití a špatných herců jsou v centru každé konverzace – a tyto obavy jsou bohužel potvrzeny skutečnými událostmi. AI hlas není výjimkou; téměř každý den je novým zprávám o tom, že celebrity, veřejná osobnost nebo politik jsou deepfakeováni pro reklamy nebo politické účely. Ačkoli formální federální regulace týkající se této technologie se stále vyvíjí, detekce a boj proti škodlivým hercům a použití syntetického hlasu bude stále obtížnější, jak se technologie bude dále rozvíjet.

Přicházející z AI2, kde je AI etika základním principem, Michael a já jsme měli tyto konverzace od prvního dne. Vývoj AI řečové technologie přichází s významnými odpovědnostmi týkajícími se souhlasu, soukromí a celkové bezpečnosti. Věděli jsme, že jako vývojáři musíme naše technologii vyvíjet bezpečně, řešit etické obavy a položit základy pro budoucí vývoj syntetických hlasů. Rozpoznáváme potenciál AI řečové technologie pro zneužití a přijímáme naší odpovědnost za snížení potenciálu zneužití našeho produktu. Musíme položit tyto základy od prvního dne, spíše než riskovat a dělat chyby na cestě. To by nebylo správné pro naše podnikové zákazníky a hlasové herce, kteří se na nás spoléhají, že vyvineme vysoce kvalitní, důvěryhodný produkt.

Plně podporujeme výzvu k legislativě v tomto poli; nicméně, nebudeme čekat na federální regulace, aby byly přijaty. Prioritizovali jsme a budeme i nadále prioritizovat postupy, které podporují soukromí, bezpečnost, transparentnost a odpovědnost.

Dodržujeme přísně naše firemní etický kodex záměru, který je založen na budování s odpovědnou inovací ve všech našich rozhodnutích. To je v nejlepším zájmu našich globálních zákazníků – podnikových značek.

Jak vyvíjíte etickou AI hlasovou platformu?

WellSaid Labs se od začátku zavázala k etické inovaci. Centralizujeme důvěru a transparentnost prostřednictvím použití interních datových modelů, explicitních požadavků na souhlas, našeho programu moderace obsahu a našeho závazku k ochraně značek. V WellSaid, spoléháme se na principy Responsible AI pro formování našich rozhodnutí a návrhů, a tyto principy se rozšiřují na použití našich hlasů. Náš etický kodex reprezentuje tyto principy jako Odpovědnost, Transparentnost, Soukromí a Bezpečnost, a Spravedlnost.

Odpovědnost: Udržujeme přísné standardy pro vhodný obsah, zakazující použití našich hlasů pro obsah, který je škodlivý, nenávistný, podvodný nebo určený k podněcování násilí. Náš tým Trust & Safety dodržuje tyto standardy s přísným programem moderace obsahu, blokuje a odstraňuje uživatele, kteří se pokusí porušit naše Podmínky služby.

Transparentnost: Požadujeme explicitní souhlas před tím, než vytvoříme syntetický hlas s někým jiným hlasovým datem. Uživatelé nemohou nahrát hlasová data od politiků, celebrit nebo někoho jiného, aby vytvořili klon jejich hlasu, pokud nemáme jejich explicitní, písemný souhlas.

Soukromí a Bezpečnost: Chráníme identity našich hlasových herců pomocí stockových obrázků a aliasů, aby reprezentovali syntetické hlasy. Také je povzbuzujeme, aby byli opatrní, jak a s kým sdílejí svou asociaci s WellSaid Labs nebo jinými syntetickými hlasovými společnostmi, aby snížili příležitost pro zneužití jejich hlasu.

Spravedlnost: Odměňujeme všechny hlasové herce, kteří poskytují hlasová data pro naší platformu, a poskytujeme jim pokračující podíl na výnosu za použití syntetického hlasu, který jsme vytvořili s jejich daty.

Spolu s těmito principy také přísně respektujeme duševní vlastnictví. Neclaimujeme vlastnictví nad obsahem poskytnutým našimi uživateli nebo hlasovými herci. Prioritizujeme integritu, spravedlnost a transparentnost ve všem, co děláme, aby naše syntetická řečová technologie byla používána odpovědně a eticky. Aktivně hledáme partnerství s hlasy z různých prostředí, organizací a zkušeností, aby zajistili, že WellSaid Labs’ knihovna hlasů odráží své tvůrce a publikum.

Náš závazek k odpovědné inovaci a vývoji AI hlasové technologie s etikou na mysli nás odlišuje od ostatních v tomto prostoru, kteří se snaží využít novou, neregulovanou oblast jakýmkoli způsobem. Naše rané investice do etiky, bezpečnosti a soukromí vytvářejí důvěru a loajalitu u našich hlasových herců a zákazníků, kteří stále více hledají eticky vyrobené produkty a služby od firem, které jsou v čele inovací.

WellSaid Labs vytvořila svou vlastní interní AI model, který umožnil jejím AI hlasům dosáhnout lidské parity, a podařilo se jim to tím, že přinesly nedokonalosti, které lidé mají v konverzacích. Co je to na těchto nedokonalostech, co dělá AI lepší, a jak jsou tyto nedokonalosti implementovány?

WellSaid Labs není jen další TTS generátor. Zatímco raná TTS technologie nebyla schopna rozpoznat lidské řečové kvality, jako je tón, hlas a dialekt, které přenášejí kontext a emoce za slovy, WellSaid hlasy dosáhly lidské parity, přinášející jedinečně lidské nedokonalosti do AI-generované řeči.

Naše primární měřítko hlasové kvality je a vždy bylo lidská přirozenost. Tento vedoucí názor formoval naši technologii na każdém stupni, od skriptových knihoven, které jsme vytvořili, po instrukce, které dáváme talentům, a nedávno, jak iterujeme na našich core TTS algoritmech.

Školíme se na autentických lidských vocalizacích. Naši hlasoví talenti čtou své scénáře autenticky a zajímavě, když pro nás nahrávají. Řečová dokonalost, na druhé straně, je mechanický koncept, který vede k roboticky dokonalému, nepřirozenému výstupu. Když profesionální hlasoví herci vystupují, jejich tempo řeči kolísá. Jejich hlasitost se pohybuje v souladu s obsahem, který čtou. Jejich hlasová výška může stoupat v pasáži, která vyžaduje nadšený čtení, a klesat opět v más sombrem linii. Tyto dynamické variace tvoří zajímavou lidskou vokální výkony.

Budováním AI procesů, které pracují v koordinaci s dynamickými výkony našich profesionálních talentů, jsme vytvořili skutečně přirozenou TTS platformu. Vyvinuli jsme první long-form TTS systém s prediktivními kontrolami po celý tvůrčí proces. Naše fonetická knihovna drží rozmanitou sbírku audio dat, umožňující uživatelům zahrnout specifické vokální signály, jako je výslovnostní vedení nebo ovladatelnost, do modelu během produkční fáze. Na jedné platformě mohou WellSaid uživatelé nahrát, upravit a stylizovat svůj hlasový doprovod bez potřeby importovat externí data.

Můžete diskutovat o některých výzvách při budování text-to-speech (TTS) AI společnosti?

Vývoj AI hlasové technologie vytvořil zcela novou sadu překážek pro její producenty i spotřebitele. Jednou z hlavních výzev je nevydání se do hluku a hype, který zaplňuje AI sektor. Jako nová, buzzy technologie, mnoho organizací se snaží využít krátkodobý AI hlasový vývoj. Chceme poskytnout hlas pro každého, vedený centrálními etickými principy a autenticitou. Toto dodržování autenticity může zpomalit vývoj a nasazení našich technologií, ale upevňuje bezpečnost a bezpečnost WellSaid hlasů a jejich dat.

Další výzvou při vývoji naší TTS platformy byla tvorba specifických pokynů pro souhlas, aby se zajistilo, že organizace nebo jednotliví herci nebudou zneužívat naší technologie. Abychom bojovali proti této výzvě, hledáme spolupracující, dlouhodobé partnerství a jsme plně zapojeni do vývoje hlasového doprovodu, aby se zvýšila odpovědnost, transparentnost a bezpečnost uživatelů. Aktivně hledáme partnerství s hlasovými talenty z různých prostředí, organizací a zkušeností, aby zajistili, že WellSaid Labs’ knihovna hlasů odráží své tvůrce a publikum. Tyto procesy jsou navrženy tak, aby byly úmyslné a detailní, aby se zajistilo, že naše technologie je používána co nejbezpečněji a eticky, což může zpomalit vývoj a spuštění.

Jaký je váš výhled do budoucnosti generativních AI hlasů?

Po nejdéle dobu nebyla AI řečová technologie dostatečně kvalitní, aby umožnila společnostem vytvářet smysluplný obsah ve velkém měřítku. Nyní, když audio technologie již nevyžaduje drahá zařízení a hardware, všechny psané obsahy mohou být produkovány a publikovány v audio formátu, aby vytvořily zajímavé, multi-modální zkušenosti.

Dnes mohou AI hlasy produkovat lidsky podobný audio a zachytit nuance potřebné k tomu, aby digitální vyprávění bylo více přístupné a přirozené. Budoucnost generativních AI hlasů bude zahrnovat všechny slyšitelné zkušenosti, které se dotknou každého aspektu našeho života. Jak se technologie bude dále rozvíjet, budeme svědky stále více přirozených a expresivních syntetických hlasů, které rozostřou hranici mezi lidsky generovaným a strojově generovaným projevem – otevírající nové dveře pro podnikání, komunikaci, přístupnost a to, jak interagujeme se světem kolem nás.

Podniky budou najít vylepšenou personalizaci v AI hlasových rozhraních a budou je používat k tomu, aby interakce s virtuálními asistenty byly více imerzivní a uživatelsky přívětivé. Tyto vylepšení se již dějí, od inteligentních call center agentů po rychlé občerstvení. Tvorba obsahu, včetně reklamy, produktového marketingu, zpravodajství, podcastů, audioknih a dalších multimédií, uvidí zvýšenou efektivitu pomocí nástrojů pro vývoj zajímavého obsahu – nakonec zvyšující lift a výnosy pro organizace, zejména nyní, když multijazyčné modely mohou expandovat společnostem z jednoho bodu původu na globální přítomnost. Produkční týmy budou najít velkou výhodu v syntetických hlasech, aby vytvořily hlasy na míru pro potřeby značky nebo přizpůsobené posluchači.

Před zavedením AI, TTS technologie postrádala kritickou lidskou emoci, intonaci a výslovnost, potřebné pro vyprávění celého příběhu ve velkém měřítku a s lehkostí. Nyní, AI poháněná TTS nabízí více imerzivní a přístupné zkušenosti, včetně reálného času řeči a interaktivních konverzačních agentů.

Dosažení lidsky podobných řečových schopností byla cesta, ale nyní, když je to dosažitelné, svědkujeme se celému rozsahu AI hlasu, aby vytvořily skutečnou obchodní hodnotu pro organizace.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí dozvědět se více, by měli navštívit WellSaid Labs.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.

Unite.AI

Matt Hocking, spoluzakladatel WellSaid Labs – rozhovorová série

You may like