cung Matt Hocking, Bashkëthemelues i WellSaid Labs - Seria e Intervistave - Unite.AI
Lidhu me ne

intervistat

Matt Hocking, Bashkëthemelues i WellSaid Labs – Seria e Intervistave

mm
Përditësuar on

Matt Hocking është bashkëthemeluesi i WellSaid Labs, një gjenerator zanor i nivelit të ndërmarrjes AI. Ai ka më shumë se 15 vjet përvojë në udhëheqjen e ekipeve dhe ofrimin e zgjidhjeve teknologjike në shkallë.

Sfondi juaj është mjaft sipërmarrës, si u përfshitë fillimisht në AI?

Mendoj se gjithmonë e kam konsideruar veten goxha sipërmarrëse. Fillova biznesin tim të parë jashtë kolegjit dhe me një përvojë në dizajnimin e produkteve, e kam gjetur veten duke u tërhequr drejt ndihmës së njerëzve me idetë e fazës së hershme. Gjatë gjithë karrierës sime, kam pasur fatin të punoj me një numër startup-sh që kanë pasur disa suksese mjaft të pabesueshme. Gjatë atyre përvojave, unë kam pasur ekspozim me shumë themelues të mëdhenj të dorës së parë, duke më frymëzuar mua për të ndjekur idetë e mia si themelues. AI ishte relativisht e re për mua kur iu bashkua AI2; megjithatë, ajo përvojë më dha një mundësi për të aplikuar produktin tim dhe lentet fillestare në disa kërkime vërtet të mahnitshme dhe imagjinoni se si këto përparime të reja do të ishin në gjendje të ndihmonin shumë njerëz në vitet e ardhshme. Qëllimi im që nga fillimi ka qenë të zhvilloj biznese reale për njerëzit e vërtetë dhe besoj se AI ka potencialin të krijojë shumë mundësi dhe efikasitete emocionuese në të ardhmen tonë, nëse zbatohet me kujdes.

A mund të ndani historinë se si u ngjiz ideja për WellSaid Labs kur ju ishit një sipërmarrës në rezidencë në Instituti Allen për AI?

Unë iu bashkua Institutit Allen për Inteligjencën Artificiale (AI2) si një Sipërmarrës në Rezidencë në 2018. Ndoshta inkubatori më inovativ në botë, AI2 strehon mendjet më të ndritura në AI që aplikojnë zgjidhje nga skaji i asaj që është e mundur sot për produkte të prekshme që zgjidhin probleme në mbarë globin. Sfondi im në dizajn dhe teknologji ushqeu një interes të gjatë në fushat krijuese, dhe me bumin e AI që të gjithë po dëshmojmë sot, doja të eksploroja një mënyrë për t'i lidhur të dyja. U njoha me Michael Petrochuk (bashkëthemelues dhe CTO i WellSaid Labs) ndërsa zhvilloja një aplikacion ndërveprues të kujdesit shëndetësor që e udhëzoi pacientin nëpër skenarë të ndryshëm të ndjeshëm. Gjatë procesit të zhvillimit të përmbajtjes për përvojën, ekipi im punoi me talentin e zërit për të regjistruar paraprakisht mijëra rreshta zëri për avatarin. Kur u ekspozova ndaj disa përparimeve që Michael kishte arritur gjatë kërkimit të tij, të dy shpejt pamë vlerën se si teksti në të folur (TTS) mund të transformonte jo vetëm produktin për të cilin po punoja, por edhe të ndikonte në një numër. të aplikacioneve dhe industrive të tjera. Teknologjia dhe instrumentet kishin luftuar për të vazhduar me nevojat e prodhuesve që krijonin me zë si një medium. Ne pamë një rrugë për ta vënë këtë teknologji në duart e të gjithë krijuesve, duke lejuar që zëri të jetë pjesë integrale e të gjitha tregimeve.

WellSaid Labs është një nga kompanitë e pakta që u ofron aktorëve zanorë një rrugë në hapësirën e zërit të AI. Pse besonit se ishte e rëndësishme të integrohen zërat e vërtetë në produkt?

Përgjigja jonë për këtë është e dyanshme: së pari, ne donim të krijonim zgjidhje që komplimentonin aftësitë e aktorëve profesionistë të zërit, duke zgjeruar mundësitë për zë. Dhe së dyti, ne përpiqemi të kemi nivelin më të lartë të cilësisë njerëzore në produktet tona. Aktorët tanë zanorë janë partnerë bashkëpunues afatgjatë dhe marrin kompensim dhe ndarje të të ardhurave si për të dhënat e tyre zanore ashtu edhe për përmbajtjen pasuese të prodhuar me to. Çdo aktor zanor që punësojmë për të krijuar një avatar zanor të AI bazuar në ngjashmërinë e zërit të tyre paguhet në bazë të asaj se sa përdoret zëri i tyre në platformën tonë. Ne inkurajojmë talentin të bashkëpunojë me ne; kompensimi i drejtë për kontributet e tyre është tepër i rëndësishëm për ne.

Për të ofruar nivelin më të lartë të produkteve me cilësi njerëzore në treg, duhet të jemi rigoroz se ku i marrim të dhënat tona. Ky proces na jep më shumë kontroll mbi cilësinë, ndërsa ne trajnojmë tonën të mësuarit e thellë modele për të folur si për barazinë njerëzore ashtu edhe për stilet specifike të kontekstit përkatës. Ne nuk krijojmë vetëm një zë që reciton të dhëna të dhëna. Modelet tona ofrojnë një shumëllojshmëri stilesh zëri që performojnë atë që është në faqe. Pavarësisht nëse përdoruesit krijojnë zë duke përdorur një avatar nga biblioteka jonë ose duke krijuar zë me një zë të personalizuar për markën e tyre, ne përdorim të dhëna reale zanore për të siguruar një proces pa probleme dhe platformë të lehtë për t'u përdorur. Nëse klientët tanë do të duhej të manipulonin dhe modifikonin zërat tanë në post-produksion, procesi i marrjes së rezultatit të dëshiruar do të ishte i ngathët dhe i gjatë. Zërat tanë marrin kontekstin e përmbajtjes së shkruar dhe ofrojnë një lexim të saktë kontekstual. Ne ofrojmë zëra për të gjitha llojet e rasteve të përdorimit – qofshin leximi i lajmeve, bërja e një reklame audio ose mbështetje e automatizuar e qendrës së thirrjeve – kështu që partneriteti me talentin profesional të zërit specifik për çdo rast përdorimi na siguron si kontekstin ashtu edhe të dhënat zanore me cilësi të lartë .

Ne përditësojmë rregullisht dhe shtojmë stile dhe thekse të reja në bibliotekën tonë të avatarit për t'u siguruar që përfaqësojmë zërat e klientëve tanë. Në Studion e WellSaid Labs, klientët dhe markat mund të bëjnë audicione të ndryshme në bazë të rajonit, stilit dhe rastit të përdorimit, duke lejuar një prodhim më të qetë dhe të unifikuar të përmbajtjes audio të personalizuar sipas nevojave të prodhuesit. Pasi të merret një mostër e një regjistrimi fillestar, përdoruesit mund të tregojnë fjalë, drejtshkrime dhe shqiptime specifike për të siguruar që AI vazhdimisht flet në mënyrë specifike për nevojat e tyre.

WellSaid Labs po vë në rrezik pretendimin e saj si platforma e parë etike e zërit e AI. Pse është e rëndësishme për ju etika e AI?

Ndërsa adoptimi i AI rritet dhe bëhet më i zakonshëm, frika nga rastet e përdorimit të dëmshëm dhe aktorët e këqij janë në qendër të çdo bisede – dhe këto shqetësime për fat të keq vërtetohen nga dukuritë e botës reale. Zëri i AI nuk bën përjashtim; Pothuajse çdo ditë, një raport i ri i një personi të famshëm, personazhi publik ose politikani që falsifikohet për reklama ose qëllime politike bëhet kryefjalë e lajmeve. Megjithëse rregullimi zyrtar federal në lidhje me këtë teknologji është ende në zhvillim, zbulimi dhe luftimi i aktorëve keqdashës dhe përdorimi i zërit sintetik do të bëhet gjithnjë e më i vështirë ndërsa teknologjia vazhdon të përparojë.

Duke ardhur nga AI2, ku etika e AI është një parim thelbësor, Michael dhe unë patëm këto biseda në ditën e parë. Zhvillimi i teknologjisë së të folurit të AI vjen me përgjegjësi të rëndësishme në lidhje me pëlqimin, privatësinë dhe sigurinë e përgjithshme. Ne e dimë se ne, si zhvillues, duhet ta ndërtojmë teknologjinë tonë në mënyrë të sigurt, të adresojmë shqetësimet etike dhe të hedhim bazat për zhvillimin e ardhshëm të zërave sintetikë. Ne e njohim potencialin e teknologjisë së të folurit AI për keqpërdorim dhe përqafojmë përgjegjësinë tonë për të reduktuar keqpërdorimin e mundshëm të produktit tonë. Ne duhet ta hedhim këtë themel që nga dita e parë në vend që të vrapojmë shpejt dhe të bëjmë gabime gjatë rrugës. Kjo nuk do të ishte e drejtë nga klientët tanë të ndërmarrjeve dhe aktorët e zërit, të cilët mbështeten tek ne për të ndërtuar një produkt me cilësi të lartë dhe të besueshëm.

Ne e mbështesim plotësisht thirrjen për legjislacion në këtë fushë; megjithatë, ne nuk do të presim që rregulloret federale të miratohen. Ne gjithmonë kemi dhënë prioritet dhe do të vazhdojmë t'i japim përparësi praktikave që mbështesin privatësinë, sigurinë, transparencën dhe llogaridhënien.

Ne i përmbahemi rreptësisht kodit etik të qëllimit të kompanisë sonë, i cili bazohet në ndërtimin me risi të përgjegjshme në çdo vendim që marrim. Ky është në interesin më të mirë të klientëve tanë globalë – markave të ndërmarrjeve.

Si të zhvilloni një platformë etike zanore të AI?

WellSaid Labs ka qenë e përkushtuar ndaj inovacionit etik që në fillim. Ne e përqendrojmë besimin dhe transparencën përmes përdorimit të modeleve të të dhënave të brendshme, kërkesave të qarta të pëlqimit, programit tonë të moderimit të përmbajtjes dhe angazhimit tonë për mbrojtjen e markës. Në WellSaid, ne mbështetemi në parimet e UA përgjegjëse për të formësuar vendimet dhe planet tona, dhe këto parime shtrihen në përdorimin e zërit tonë. Kodi ynë i etikës përfaqëson këto parime si Përgjegjshmëria, Transparenca, Privatësia dhe Siguria dhe Drejtësia.

Përgjegjësi: Ne mbajmë standarde strikte për përmbajtjen e duhur, duke ndaluar përdorimin e zërit tonë për përmbajtje të dëmshme, urrejtjeje, mashtruese ose që synojnë të nxisin dhunë. Ekipi ynë i Mirëbesimit dhe Sigurisë i mbështet këto standarde me një program rigoroz të moderimit të përmbajtjes, duke bllokuar dhe hequr përdoruesit që përpiqen të shkelin Kushtet tona të Shërbimit.

Transparenca: Ne kërkojmë pëlqimin e qartë përpara se të ndërtojmë një zë sintetik me të dhënat zanore të dikujt. Përdoruesit nuk janë në gjendje të ngarkojnë të dhëna zanore nga politikanë, të famshëm ose kushdo tjetër për të krijuar një klon të zërit të tyre, përveç nëse kemi pëlqimin e qartë dhe me shkrim të atij personi.

Privatësia dhe Siguria: Ne mbrojmë identitetin e aktorëve tanë zanorë duke përdorur imazhe të aksioneve dhe pseudonime për të përfaqësuar zërat sintetikë. Ne gjithashtu i inkurajojmë ata të tregojnë kujdes se si dhe me kë ndajnë lidhjen e tyre me WellSaid Labs ose kompani të tjera zëri sintetikë për të zvogëluar mundësinë e keqpërdorimit të zërit të tyre.

drejtësi: Ne kompensojmë të gjithë aktorët zanorë që ofrojnë të dhëna zanore për platformën tonë dhe u ofrojmë atyre një ndarje të vazhdueshme të të ardhurave për përdorimin e zërit sintetik që ndërtojmë me të dhënat e tyre.

Së bashku me këto parime, ne gjithashtu respektojmë rreptësisht pronësinë intelektuale. Ne nuk pretendojmë pronësi mbi përmbajtjen e ofruar nga përdoruesit tanë ose aktorët zanorë. Ne i japim përparësi integritetit, drejtësisë dhe transparencës në çdo gjë që bëjmë, duke siguruar që teknologjia jonë e të folurit sintetik të përdoret me përgjegjësi dhe etikë. Ne kërkojmë në mënyrë aktive partneritete me zëra nga prejardhje dhe përvoja të ndryshme për të siguruar që ne të ofrojmë një zë për të gjithë.

Angazhimi ynë ndaj inovacionit të përgjegjshëm dhe zhvillimit të teknologjisë së zërit të AI me etikën në mendje, na dallon nga të tjerët në hapësirë, të cilët po kërkojnë të përfitojnë nga një industri e re, e parregulluar me çdo mjet. Investimet tona të hershme në etikë, siguri dhe privatësi krijojnë besim dhe besnikëri tek aktorët dhe klientët tanë të zërit, të cilët kërkojnë gjithnjë e më shumë produkte dhe shërbime të krijuara në mënyrë etike nga kompanitë në ballë të inovacionit.

WellSaid Labs ka krijuar modelin e vet të inteligjencës artificiale të brendshme që u mundësoi zërave të saj të AI të arrinin barazinë njerëzore dhe e ka arritur këtë duke sjellë papërsosmëritë që njerëzit kanë në biseda. Çfarë është në lidhje me këto papërsosmëri që e bëjnë AI më të mirë dhe si zbatohen këto papërsosmëri?

WellSaid Labs nuk është thjesht një gjenerator tjetër TTS. Aty ku teknologjia e hershme TTS nuk ishte në gjendje të njihte cilësitë e të folurit njerëzor si lartësia, toni dhe dialekti që përcjellin kontekstin dhe emocionin pas fjalëve, zërat WellSaid kanë arritur barazinë njerëzore, duke sjellë papërsosmëri unike njerëzore në fjalimin e krijuar nga AI.

Masa jonë kryesore e cilësisë së zërit është dhe ka qenë gjithmonë natyraliteti njerëzor. Ky besim udhëzues ka formësuar teknologjinë tonë në çdo fazë, nga bibliotekat e skripteve që kemi ndërtuar deri te udhëzimet që i japim talentit dhe, së fundmi, se si ne përsërisim në algoritmet tona kryesore TTS.

Ne stërvitemi për vokalizime autentike njerëzore. Talenti ynë i zërit i lexon skenarët e tyre në mënyrë autentike dhe tërheqëse kur ata regjistrojnë për ne. Përsosja e të folurit, nga ana tjetër, është një koncept mekanik që çon në një rezultat robotikisht të përsosur dhe të panatyrshëm. Kur performon talenti profesional i zërit, shkalla e të folurit të tyre luhatet. Zhurma e tyre lëviz në lidhje me përmbajtjen që lexojnë. Lartësia e tyre vokale mund të rritet në një pasazh që kërkon një lexim të emocionuar dhe të bjerë përsëri në një rresht më të zymtë. Këto variacione dinamike përbëjnë një performancë tërheqëse vokale njerëzore.

Duke ndërtuar procese të AI që funksionojnë në koordinim me performancat dinamike të talentit tonë profesional, ne kemi ndërtuar një platformë vërtet natyrore TTS. Ne zhvilluam sistemin e parë TTS të formës së gjatë me kontrolle parashikuese gjatë gjithë procesit krijues. Biblioteka jonë fonetike përmban një koleksion të larmishëm të të dhënave audio, duke i lejuar përdoruesit të përfshijnë sinjale specifike vokale, si udhëzimi i shqiptimit ose kontrollueshmëria, në model gjatë fazës së prodhimit. Në një platformë, përdoruesit e WellSaid mund të regjistrojnë, modifikojnë dhe stilizojnë zërin e tyre pa pasur nevojë të importojnë të dhëna të jashtme.

A mund të diskutoni disa nga sfidat pas ndërtimit të një kompanie AI tekst-në-fjalë (TTS)?

Zhvillimi i teknologjisë së zërit të AI ka krijuar një grup krejtësisht të ri pengesash si për prodhuesit ashtu edhe për konsumatorët. Një nga sfidat kryesore është të mos kapeni nga zhurma dhe zhurma që vërshon sektorin e AI. Si një teknologji e re, e zhurmshme, shumë organizata po përpiqen të përfitojnë nga zhvillimet afatshkurtëra të zërit të AI. Ne duam të ofrojmë një zë për të gjithë, të udhëhequr nga parimet qendrore etike dhe autenticiteti. Ky respektim i autenticitetit mund të vonojë zhvillimin dhe vendosjen e teknologjive tona, por forcon sigurinë dhe sigurinë e zërave WellSaid dhe të dhënave të tyre.

Një sfidë tjetër e zhvillimit të platformës sonë TTS ishte zhvillimi i udhëzimeve specifike të pëlqimit për të siguruar që organizatat ose aktorët individualë të mos keqpërdorin teknologjinë tonë. Për të luftuar këtë sfidë, ne kërkojmë partneritete bashkëpunuese, afatgjata dhe jemi plotësisht të përfshirë në zhvillimin e zërit për të rritur përgjegjshmërinë, transparencën dhe sigurinë e përdoruesit. Ne kërkojmë në mënyrë aktive partneritete me talente zanore nga prejardhje, organizata dhe përvoja të ndryshme për të siguruar që biblioteka e zërave të WellSaid Labs të pasqyrojë krijuesit dhe audiencën e saj. Këto procese janë krijuar për të qenë të qëllimshme dhe të orientuara drejt detajeve për të siguruar që teknologjia jonë të përdoret në mënyrë sa më të sigurt dhe etike që të jetë e mundur, gjë që mund të ngadalësojë zhvillimin dhe afatin kohor të nisjes.

Cili është vizioni juaj për të ardhmen e zërave gjenerues të AI?

Për kohën më të gjatë, teknologjia e të folurit AI nuk ka arritur cilësi të mjaftueshme për t'u mundësuar kompanive të krijojnë përmbajtje kuptimplote në shkallë. Tani që teknologjia audio nuk kërkon më pajisje dhe pajisje të shtrenjta, e gjithë përmbajtja e shkruar mund të prodhohet dhe publikohet në një format audio për të krijuar përvoja tërheqëse dhe shumë-modale.

Sot, zërat e AI mund të prodhojnë audio si njeriu dhe të kapin nuancën e nevojshme për ta bërë tregimin dixhital më të aksesueshëm dhe më të natyrshëm. E ardhmja e zërit gjenerues të AI do të jetë përvoja dëgjimore gjithëpërfshirëse që prekin çdo aspekt të jetës sonë. Teksa teknologjia vazhdon të përparojë, ne do të shohim zëra sintetikë gjithnjë e më të natyrshëm dhe ekspresivë të mjegullojnë kufirin midis të folurit të krijuar nga njeriu dhe makineri – duke hapur dyer të reja për biznesin, komunikimin, aksesin dhe mënyrën se si ndërveprojmë me botën përreth nesh.

Bizneset do të gjejnë personalizim të zgjeruar në ndërfaqet zanore të AI dhe do t'i përdorin ato për t'i bërë ndërveprimet me asistentët virtualë më zhytës dhe miqësorë për përdoruesit. Këto përmirësime po ndodhin tashmë, nga agjentët inteligjentë të qendrave të thirrjeve te ushqimi i shpejtë. Krijimi i përmbajtjes, duke përfshirë reklamimin, marketingun e produkteve, transmetimin e lajmeve, podkastet, librat audio dhe multimedia të tjera, do të ketë efikasitet të shtuar duke përdorur mjete për të zhvilluar përmbajtje tërheqëse – duke rritur përfundimisht rritjen dhe të ardhurat për organizatat, veçanërisht tani që modelet shumëgjuhëshe mund të zgjerojnë shtrirjen e një kompanie nga një pikë e vetme e origjinës për të pasur një prani globale. Ekipet e prodhimit do të gjejnë përfitime të mëdha në zërat sintetikë për të krijuar zëra të përshtatur për nevojat e markës ose të personalizuara për dëgjuesin.

Përpara prezantimit të AI, teknologjisë TTS i mungonin emocionet, intonacioni dhe aftësitë e shqiptimit thelbësor të njeriut që kërkoheshin për të treguar një histori të plotë në shkallë dhe me lehtësi. Tani, TTS e fuqizuar nga AI ofron përvoja më zhytëse dhe të arritshme, duke përfshirë aftësitë e të folurit në kohë reale dhe agjentët bashkëbisedues ndërveprues.

Arritja e aftësive të të folurit të ngjashme me njerëzit ka qenë një udhëtim, por tani që është e arritshme, ne jemi dëshmitarë të fushës së plotë të zërit të AI për të krijuar vlerë të vërtetë biznesi për organizatat.

Faleminderit për intervistën e mrekullueshme, lexuesit që dëshirojnë të mësojnë më shumë duhet ta vizitojnë Laboratorët WellSaid.

Një partner themelues i unite.AI dhe një anëtar i Këshilli i Teknologjisë i Forbes, Antoine është një futurist i cili është i apasionuar pas të ardhmes së AI dhe robotikës.

Ai është gjithashtu Themeluesi i Letrat me vlerë.io, një faqe interneti që fokusohet në investimin në teknologjinë përçarëse.