výhonek Matt Hocking, spoluzakladatel WellSaid Labs – série rozhovorů – Unite.AI
Spojte se s námi

rozhovory

Matt Hocking, spoluzakladatel WellSaid Labs – série rozhovorů

mm
aktualizováno on

Matt Hocking je spoluzakladatelem WellSaid Labs, přední podnikový AI hlasový generátor. Má více než 15 let zkušeností s vedením týmů a poskytováním technologických řešení ve velkém měřítku.

Vaše minulost je poměrně podnikatelská, jak jste se původně dostal k AI?

Asi jsem se vždycky považoval za dost podnikavého. Svou první firmu jsem začal po vysoké škole a se zkušenostmi v oblasti produktového designu jsem zjistil, že tíhnu k tomu, abych pomáhal lidem s nápady v rané fázi. Během své kariéry jsem měl to štěstí, že jsem mohl pracovat s řadou startupů, které za sebou mají neuvěřitelné úspěchy. Během těchto zkušeností jsem se setkal se spoustou skvělých zakladatelů z první ruky, což mě následně inspirovalo k tomu, abych se jako zakladatel věnoval svým vlastním nápadům. Když jsem se připojil k AI2, umělá inteligence pro mě byla relativně nová; nicméně tato zkušenost mi poskytla příležitost použít svůj produkt a startovací čočku na skutečně úžasný výzkum a představit si, jak tyto nové pokroky budou moci v nadcházejících letech pomoci mnoha lidem. Mým cílem od začátku bylo rozvíjet skutečné podnikání pro skutečné lidi a věřím, že umělá inteligence má potenciál vytvořit v naší budoucnosti spoustu vzrušujících příležitostí a efektivnosti, pokud bude aplikována promyšleně.

Mohl byste se podělit o příběh o tom, jak vznikla myšlenka WellSaid Labs, když jste byli podnikatelem v rezidenci na Allenův institut pro AI?

Do Allen Institute for Artificial Intelligence (AI2) jsem nastoupil jako rezidentní podnikatel v roce 2018. Pravděpodobně nejinovativnější inkubátor na světě, AI2 ukrývá nejchytřejší mozky v oblasti AI, které aplikují řešení od okraje toho, co je dnes možné, až po hmatatelné produkty, které řeší problémy po celém světě. Moje minulost v oblasti designu a technologie podnítila dlouhodobý zájem o kreativní obory a s rozmachem umělé inteligence, kterého jsme dnes všichni svědky, jsem chtěl prozkoumat způsob, jak tyto dvě věci propojit. Byl jsem představen Michaelu Petrochukovi (spoluzakladatel WellSaid Labs a CTO) při vývoji interaktivní zdravotnické aplikace, která pacienta provedla různými citlivými scénáři. Během procesu vývoje obsahu pro zážitek můj tým pracoval s hlasovým talentem, aby předem nahrál tisíce řádků komentáře pro avatara. Když jsem byl vystaven některým průlomům, kterých Michael dosáhl během svého výzkumu, oba jsme rychle pochopili hodnotu toho, jak může převod textu na řeč s lidskou paritou (TTS) změnit nejen produkt, na kterém jsem pracoval, ale také ovlivnit řadu jiných aplikací a odvětví. Technologie a nástroje se snažily držet krok s potřebami producentů vytvářejících hlas jako médium. Viděli jsme cestu, jak dát tuto technologii do rukou všem tvůrcům a umožnit, aby se hlas stal nedílnou součástí všech příběhů.

WellSaid Labs je jednou z mála společností, které poskytují hlasovým hercům cestu do prostoru AI. Proč jste věřili, že je důležité integrovat skutečné hlasy do produktu?

Naše odpověď na to je dvojí: zaprvé jsme chtěli vytvořit řešení, která doplňují schopnosti profesionálních hlasových herců a rozšiřují příležitosti pro hlas. A za druhé, snažíme se, aby naše produkty měly nejvyšší úroveň lidské kvality. Naši hlasoví herci jsou dlouhodobí partneři pro spolupráci a dostávají odměnu a podíl na výnosech jak za svá hlasová data, tak za následný obsah s nimi vytvořený. Každý hlasový herec, kterého najmeme, aby vytvořil hlasového avatara AI na základě podoby jeho hlasu, je placen podle toho, jak moc je jeho hlas na naší platformě používán. Podporujeme talenty, aby s námi spolupracovali; spravedlivá odměna za jejich příspěvky je pro nás neuvěřitelně důležitá.

Abychom mohli nabízet produkty nejvyšší kvality na trhu, musíme být přísní ohledně toho, odkud naše data získáváme. Tento proces nám dává větší kontrolu nad kvalitou, jak trénujeme hluboké učení modely, které mluví jak k lidské paritě, tak ke specifickým kontextově relevantním stylům. Nevytváříme pouze hlas, který recituje poskytnutý vstup. Naše modely nabízejí různé hlasové styly, které vyjadřují to, co je na stránce. Ať už uživatelé vytvářejí hlasový záznam pomocí avatara z naší knihovny, nebo vytvářejí hlasový záznam pomocí vlastního hlasu pro jejich značku, používáme skutečná hlasová data, abychom zajistili bezproblémový proces a snadno použitelnou platformu. Pokud by naši zákazníci museli manipulovat a upravovat naše hlasy v postprodukci, proces získání požadovaného výstupu by byl neohrabaný a dlouhý. Naše hlasy berou kontext psaného obsahu a poskytují kontextově přesné čtení. Nabízíme hlasy pro všechny typy případů použití – ať už jde o čtení zpráv, vytváření zvukové reklamy nebo automatizovanou podporu call centra – takže partnerství s profesionálními hlasovými talenty specifickými pro každý případ použití nám poskytuje kontext i vysoce kvalitní hlasová data. .

Pravidelně aktualizujeme a přidáváme nové styly a akcenty do naší knihovny avatarů, abychom zajistili, že budeme reprezentovat hlasy našich zákazníků. Ve studiu WellSaid Labs' Studio mohou zákazníci a značky vyzkoušet různé hlasy na základě regionu, stylu a případu použití, což umožňuje hladší a sjednocenou produkci zvukového obsahu přizpůsobeného potřebám výrobce. Jakmile je navzorkována počáteční nahrávka, uživatelé mohou naladit konkrétní slova, pravopis a výslovnost, aby bylo zajištěno, že AI bude konzistentně mluvit konkrétně podle jejich potřeb.

WellSaid Labs se prohlašuje za první etickou hlasovou platformu AI. Proč je pro vás etika umělé inteligence důležitá?

Jak se zavádění umělé inteligence zvyšuje a stává se více mainstreamovým, obavy ze škodlivých případů použití a špatných aktérů jsou středem každé konverzace – a tyto obavy jsou bohužel potvrzeny událostmi v reálném světě. Hlas AI není výjimkou; Téměř každý den se na titulky novin dostane nová zpráva o celebritě, veřejné osobě nebo politikovi, kteří jsou hluboce zfalšováni pro reklamy nebo politické účely. Ačkoli se formální federální regulace týkající se této technologie stále vyvíjí, odhalování a boj se zlými úmysly a používání syntetického hlasu bude stále obtížnější, protože technologie pokračuje vpřed.

Michael a já jsme pocházeli z AI2, kde je základním principem etika umělé inteligence, tyto rozhovory první den. Vývoj řečové technologie umělé inteligence přináší značnou odpovědnost za souhlas, soukromí a celkovou bezpečnost. Víme, že jako vývojáři musíme budovat naši technologii bezpečně, řešit etické problémy a položit základy pro budoucí vývoj syntetických hlasů. Uvědomujeme si potenciál AI řečové technologie pro zneužití a přijímáme naši odpovědnost za snížení potenciálního zneužití našeho produktu. Tento základ musíme položit od prvního dne a ne běhat rychle a dělat chyby. To by nebylo správné ze strany našich podnikových zákazníků a hlasových herců, kteří na nás spoléhají, že vytvoříme vysoce kvalitní a důvěryhodný produkt.

Plně podporujeme výzvu k přijetí právních předpisů v této oblasti; nebudeme však čekat na přijetí federálních předpisů. Vždy jsme upřednostňovali a budeme upřednostňovat postupy, které podporují soukromí, bezpečnost, transparentnost a odpovědnost.

Přísně dodržujeme etický kodex naší společnosti, který je založen na budování odpovědných inovací při každém našem rozhodnutí. To je v nejlepším zájmu našich globálních zákazníků – podnikových značek.

Jak vyvíjíte etickou hlasovou platformu AI?

WellSaid Labs se od začátku zavázala k etickým inovacím. Centralizujeme důvěru a transparentnost pomocí interních datových modelů, požadavků na výslovný souhlas, našeho programu moderování obsahu a našeho závazku k ochraně značky. Ve WellSaid se opíráme o principy Zodpovědná AI utvářet naše rozhodnutí a návrhy a tyto zásady se vztahují i ​​na používání našich hlasů. Náš etický kodex představuje tyto principy jako Odpovědnost, Transparentnost, Soukromí a bezpečnost a Spravedlnost.

Odpovědnost: Dodržujeme přísné standardy pro vhodný obsah a zakazujeme používat naše hlasy pro obsah, který je škodlivý, nenávistný, podvodný nebo určený k podněcování násilí. Náš tým pro důvěryhodnost a bezpečnost dodržuje tyto standardy pomocí přísného programu moderování obsahu, který blokuje a odstraňuje uživatele, kteří se pokoušejí porušovat naše smluvní podmínky.

Průhlednost: Před vytvořením syntetického hlasu s něčími hlasovými daty vyžadujeme výslovný souhlas. Uživatelé nemohou nahrávat hlasová data politiků, celebrit nebo kohokoli jiného za účelem vytvoření klonu jejich hlasu, pokud k tomu nemáme výslovný písemný souhlas dané osoby.

Ochrana soukromí a zabezpečení: Chráníme identitu našich hlasových herců pomocí obrázků a aliasů, které reprezentují syntetické hlasy. Také jim doporučujeme, aby byli opatrní ohledně toho, jak a s kým sdílejí své spojení s WellSaid Labs nebo jinými společnostmi zabývajícími se syntetickým hlasem, aby se snížila možnost zneužití jejich hlasu.

Férovost: Odměňujeme všechny hlasové aktéry, kteří poskytují hlasová data pro naši platformu, a poskytujeme jim průběžné sdílení příjmů za používání syntetického hlasu, který vytváříme s jejich daty.

Spolu s těmito zásadami také přísně respektujeme duševní vlastnictví. Nenárokujeme si vlastnictví obsahu poskytovaného našimi uživateli nebo hlasovými herci. Upřednostňujeme integritu, spravedlnost a transparentnost ve všem, co děláme, a zajišťujeme, že naše technologie syntetické řeči je používána odpovědně a eticky. Aktivně hledáme partnerství s hlasy z různých prostředí a zkušeností, abychom zajistili, že poskytneme hlas všem.

Náš závazek k odpovědným inovacím a vývoji hlasové technologie AI s ohledem na etiku nás odlišuje od ostatních v oboru, kteří se snaží jakýmikoli prostředky těžit z nového, neregulovaného odvětví. Naše rané investice do etiky, bezpečnosti a soukromí vytvářejí důvěru a loajalitu mezi našimi hlasovými aktéry a zákazníky, kteří stále více hledají eticky vyrobené produkty a služby od společností, které jsou v popředí inovací.

WellSaid Labs vytvořila svůj vlastní model umělé inteligence, který umožnil jejím hlasům umělé inteligence dosáhnout lidské parity, a dosáhlo toho tím, že do konverzací vnesl nedokonalosti, které lidé mají. Co je na těchto nedokonalostech, které dělají AI lepší, a jak jsou tyto nedokonalosti implementovány?

WellSaid Labs není jen další generátor TTS. Tam, kde raná technologie TTS nedokázala rozpoznat kvality lidské řeči, jako je výška, tón a dialekt, které vyjadřují kontext a emoce za slovy, hlasy WellSaid dosáhly lidské parity a vnesly do řeči generované umělou inteligencí jedinečné lidské nedokonalosti.

Naším primárním měřítkem kvality hlasu je a vždy byla lidská přirozenost. Tato vůdčí víra utvářela naši technologii v každé fázi, od knihoven skriptů, které jsme vytvořili, až po pokyny, které dáváme talentům, a v poslední době i to, jak iterujeme naše základní algoritmy TTS.

Trénujeme na autentických lidských vokalizacích. Náš hlasový talent čte jejich scénáře autenticky a poutavě, když pro nás nahrávají. Dokonalost řeči je naproti tomu mechanický koncept, který vede k roboticky bezchybnému, nepřirozenému výstupu. Když vystupuje profesionální hlasový talent, rychlost jejich řeči kolísá. Jejich hlasitost se pohybuje ve spojení s obsahem, který čtou. Jejich hlasová výška se může zvýšit v pasáži vyžadující vzrušené čtení a znovu klesnout v pochmurnější linii. Tyto dynamické variace tvoří poutavý lidský vokální výkon.

Vybudováním procesů umělé inteligence, které fungují v koordinaci s dynamickými výkony našich profesionálních talentů, jsme vybudovali skutečně přirozenou platformu TTS. Vyvinuli jsme první dlouhý systém TTS s prediktivním ovládáním v průběhu celého tvůrčího procesu. Naše fonetická knihovna uchovává rozmanitou sbírku zvukových dat, která uživatelům umožňuje začlenit specifické hlasové podněty, jako je vedení výslovnosti nebo ovladatelnost, do modelu během produkční fáze. Na jedné platformě mohou uživatelé WellSaid nahrávat, upravovat a stylizovat svůj hlasový projev, aniž by museli importovat externí data.

Mohl byste pohovořit o některých výzvách, které stojí za vybudováním společnosti s umělou inteligencí pro převod textu na řeč (TTS)?

Vývoj hlasové technologie AI vytvořil zcela novou sadu překážek pro výrobce i spotřebitele. Jedním z hlavních problémů je nezabřednout do hluku a humbuku, který zaplavuje sektor AI. Jako nová, rušná technologie se mnoho organizací snaží vydělat na krátkodobém vývoji AI voiceoveru. Chceme poskytnout hlas pro každého, řídíme se ústředními etickými principy a autenticitou. Toto dodržování autenticity může zpozdit vývoj a nasazení našich technologií, ale posiluje bezpečnost a zabezpečení hlasů WellSaid a jejich dat.

Další výzvou při vývoji naší platformy TTS bylo vypracování konkrétních pokynů pro souhlas, které zajistí, že organizace nebo jednotliví aktéři nezneužijí naši technologii. Abychom s touto výzvou čelili, hledáme dlouhodobá partnerství pro spolupráci a plně se podílíme na vývoji hlasového projevu, abychom zvýšili odpovědnost, transparentnost a bezpečnost uživatelů. Aktivně hledáme partnerství s hlasovými talenty z různých prostředí, organizací a zkušeností, abychom zajistili, že knihovna hlasů WellSaid Labs bude odrážet její tvůrce a publikum. Tyto procesy jsou navrženy tak, aby byly záměrné a zaměřené na detaily, aby bylo zajištěno, že naše technologie bude používána co nejbezpečněji a eticky, což může zpomalit vývoj a časovou osu spuštění.

Jaká je vaše vize budoucnosti generativních hlasů AI?

Technologie řeči AI po nejdelší dobu nedosáhla dostatečně vysoké kvality, aby společnostem umožnila vytvářet smysluplný obsah ve velkém. Nyní, když audio technologie již nevyžaduje drahé vybavení a hardware, lze veškerý psaný obsah vytvářet a publikovat ve zvukovém formátu a vytvářet tak poutavé multimodální zážitky.

Dnes mohou hlasy umělé inteligence produkovat zvuk podobný lidem a zachytit nuance potřebné k tomu, aby bylo digitální vyprávění přístupnější a přirozenější. Budoucností generativního hlasu umělé inteligence budou všezahrnující slyšitelné zážitky, které se dotknou každého aspektu našeho života. Jak technologie pokračuje vpřed, uvidíme, jak přirozenější a výraznější syntetické hlasy stírají hranici mezi lidskou a strojově generovanou řečí – otevírají nové dveře pro podnikání, komunikaci, dostupnost a způsob, jakým komunikujeme se světem kolem nás.

Podniky naleznou vylepšenou personalizaci v hlasových rozhraních AI a použijí je k tomu, aby interakce s virtuálními asistenty byly pohlcující a uživatelsky přívětivé. K těmto vylepšením již dochází, od inteligentních agentů call center až po rychlé občerstvení. Vytváření obsahu, včetně reklamy, produktového marketingu, vyprávění zpráv, podcastů, audioknih a dalších multimédií, zaznamená zvýšenou efektivitu díky použití nástrojů k vývoji poutavého obsahu – což v konečném důsledku zvýší zisk a příjmy pro organizace, zvláště nyní, kdy vícejazyčné modely mohou rozšířit dosah společnosti. od jediného místa původu až po globální přítomnost. Produkční týmy najdou velký přínos v syntetických hlasech pro vytváření hlasů šitých na míru potřebám značky nebo přizpůsobených posluchači.

Před zavedením umělé inteligence technologie TTS postrádala klíčové lidské emoce, intonaci a výslovnostní schopnosti potřebné k vyprávění celého příběhu ve velkém měřítku a snadno. Nyní TTS s umělou inteligencí nabízí pohlcující a přístupnější zážitky, včetně možností řeči v reálném čase a interaktivních konverzačních agentů.

Dosažení lidských schopností řeči byla cesta, ale nyní, když je to dosažitelné, jsme svědky úplného rozsahu hlasu AI, který vytváří skutečnou obchodní hodnotu pro organizace.

Děkuji za skvělý rozhovor, čtenáři, kteří se chtějí dozvědět více, by měli navštívit WellSaid Labs.

Zakládající partner unite.AI a člen Technologická rada Forbes, Antoine je a futurista který je zapálený pro budoucnost umělé inteligence a robotiky.

Je také zakladatelem Cenné papíry.io, web, který se zaměřuje na investice do převratných technologií.