cung Jaime Bosch, CEO, Voicemod - Seria e Intervistave - Unite.AI
Lidhu me ne

intervistat

Jaime Bosch, CEO, Voicemod – Seria e Intervistave

mm

Publikuar

 on

Jaime Bosch është CEO i modul zëri një softuer falas për ndryshimin e zërit për lojtarë, krijues të përmbajtjes dhe vtuber.

A mund të ndani historinë e gjenezës pas Voicemod?

Si i 8-ti nga 10 fëmijët, unë u rrita në një mjedis ku mund të shpalosja plotësisht shpirtin tim sipërmarrës që në moshë shumë të re, pasi gjithmonë kishte mbështetje nga vëllezërit e motrat me mendje të ngjashme.

Si i tillë, ishte vetëm çështje kohe që unë dhe dy nga vëllezërit e mi, të gjithë me një dashuri të thellë për teknologjinë dhe muzikën, luajtëm me idenë e krijimit të një aplikacioni që ndërthurte interesat tona. Kështu, në vitin 2009, ne bëmë pikërisht këtë dhe krijuam një aplikacion muzikor B2C si një nxitje anësore për biznesin e studios që po drejtonim si profesionin tonë kryesor.

Duke qenë se ishte një projekt anësor, ne eksperimentuam shumë me gjëra si modulimi i zërit, i cili na frymëzoi të krijonim diçka krejtësisht të re dhe të re. Rezultati i kësaj ishte ajo që ne e quajtëm "Përvoja Voicemod" - një mënyrë krejtësisht e re për të përjetuar zërin tuaj - e cila u bë forca lëvizëse e evolucionit të aplikacionit. Pavarësisht se kush e provoi softuerin tonë, ne vazhduam të hasnim të njëjtat lloj reagimesh nga njerëzit që e përjetuan aplikacionin: të qeshura dhe habi kur dëgjoni veten në një mënyrë krejtësisht të ndryshme.

Kjo na shtyn të riformësojmë vizionin tonë për produktin, në diçka që përfundimisht mund të evoluojë lidhjen njerëzore përmes mediumit të tingullit. Pra, ne e sollëm përvojën nga celulari në PC, ku ajo u kap menjëherë nga skena shpërthyese e lojërave dhe transmetimit – dhe pjesa tjetër është, siç thotë njëri, "histori".

Voicemod ishte fillimisht një projekt anësor - kur e kuptove se doje të hyje në all-in?

Fillimisht, unë dhe vëllezërit e mi kishim së bashku një studio të quajtur 2taptap. Kur na erdhi ideja për të krijuar Voicemod, fillimisht ishte thjesht një projekt anësor argëtues, por me kalimin e kohës, ne pamë se si njerëzit po ndërvepronin me të dhe llojin e potencialit që kishte teknologjia. Deri në atë moment, shumica e teknologjive të ndryshimit të zërit ishin asinkrone, kështu që të jesh në gjendje të përjetosh të qenit dikush tjetër në një mjedis në kohë reale ishte diçka e re për shumë njerëz. Momenti përcaktues për ne, megjithatë, ishte realizimi se njerëzit po përdornin teknologjinë tonë jo vetëm për t'u argëtuar, por për të formuar të gjithë mënyrën e tyre të të shprehurit në internet. Kjo është kur kuptuam se po ndërtonim diçka që nuk kishte të bënte vetëm me argëtimin, por ndoshta hapin tjetër në të ardhmen e përvojave audio sociale.

A mund të diskutoni disa nga teknologjitë e njohjes së zërit?

Me gamën e ndërruesve të zërave në katalogun tonë, ka procese që i nënshtrohen për të marrë një zë të rregullt njerëzor dhe për ta transformuar atë në diçka të re. Sigurisht, ka edhe aspekte në zërin e dikujt që duhet të merren parasysh si mosha, gjinia, emocionet dhe thjesht variacione të thjeshta në mënyrën se si flet.

Këto ndryshime kontribuojnë në mënyrën se si dikush mund të tingëllojë dhe të ndikojë në ndryshimet që aplikohen. Ne përdorim elementë nga teknologjia më e fundit e njohjes së zërit për të lehtësuar konvertimin dhe transformimin e zërit sa më saktë që të jetë e mundur — dhe po përmirësojmë vazhdimisht këtë proces. Ne duam t'u japim njerëzve mundësinë të strukturojnë mënyrën se si perceptohen, të tingëllojnë se si dëshirojnë të dëgjohen dhe t'i japin një përvojë të shkëlqyer dëgjimi audiencës së tyre.

Pse është e rëndësishme t'i ndihmojmë njerëzit të shprehin veten përmes zërit?

Që nga momenti kur lindim dhe ulërima e parë e një fëmije, tingulli është mënyra e natyrshme përmes së cilës ne mësojmë të shprehemi. Ndërsa rritemi, rëndësia e komunikimit audio vazhdon të rritet, ndërsa mësojmë të formojmë tingullin në gjuhë dhe të përdorim zërat tanë për të vendosur emocione dhe nuanca në fjalët që flasim. Duke ngritur lartësinë e zërit, ne mund të sinjalizojmë emocione - ose të përdorim efekte zanore si psherëtima ose rënkime për t'i vënë theks të veçantë pikave që duam të bëjmë.

Për disa njerëz vërtet të talentuar, zëri është një instrument për shprehje të pakufizuar - pasi ata mund të krijojnë një sasi të pakufizuar efektesh zanore ose zërash. Shumica prej nesh, megjithatë, nuk janë aq me fat dhe në fakt ndihen të parehatshëm me zërat tanë (veçanërisht kur i dëgjojmë të regjistruar). Disa nga përdoruesit tanë flasin se ndihen nervozë kur flasin para të huajve dhe janë të frustruar që nuk mund të shprehen siç duhet në mënyrën që do të dëshironin.

Kjo është ajo ku ne shohim një mundësi masive për të ndihmuar njerëzit. Me identitetin tonë zanor, përdoruesit mund t'i formësojnë zërat e tyre për të qenë diçka me të cilën ndihen rehat – ose edhe të rrëshqasin në zëra të ndryshëm për situata specifike. Ne duam gjithashtu t'i fuqizojmë ata të përdorin efekte zanore, klipe muzikore ose emoji audio për të krijuar ambient, për të përcjellë kontekstin ose për të zbatuar efekte komike – ngjashëm me mënyrën se si emoji-t grafikë kanë ndihmuar në formimin e komunikimit me tekst.

Ju e keni përshkruar Voicemod si një lidhje njerëzore në zhvillim përmes zërit, a mund ta elaboroni këtë?

Përveç çlirimit të folësit dhe heqjes së një blloku të caktuar mendor që i ndalon njerëzit të flasin, ne po punojmë gjithashtu për ta bërë këtë lidhje më të thellë. Për shembull, tabela jonë e zërit e merr komunikimin dhe e ngre atë në nivelin tjetër - mendoni për atë si një "emoji audio". A mund t'i imagjinoni njerëzit nën 35 vjeç duke biseduar pa përdorur emoji? Ndërsa kjo teknologji ka ekzistuar për atë që duket si mosha tani, ajo në të vërtetë është ngulitur thellë në komunikimin tonë që nga viti 2010. Ne pamë një prirje të ngjashme me ngjitësit në platformat e mesazheve, rritjen e mesazheve zanore dhe shënimet zanore, dhe tani përdorimi në zhvillim e GIF dhe Giphy. Me shkallëzimin e komunikimeve audio në mbarë botën, rëndësia se si ne përdorim tingullin po rritet. Dërgimi i një reagimi audio ndaj shakasë së mikut tuaj mund të tregojë shumë më tepër për reagimin tuaj të papërpunuar dhe të sinqertë sesa thjesht të shtypni një fjali. Imagjinoni ndryshimin midis dëgjimit të tingullit të kriketit dhe ba dum tss! Ata të gjithë kanë kuptime dhe ndjenja shumë të ndryshme që mund t'i komunikoni lehtësisht vetëm me një klik.

Ne duam t'ua bëjmë sa më të lehtë përdoruesve përdorimin e zërave, efekteve zanore dhe emoji-ve audio për të pasur biseda audio më tërheqëse me miqtë, familjen ose të huajt.

Cilat janë disa nga teknologjitë e mësimit të makinerive pas aplikacionit Voicemod duke përfshirë lejimin e përdoruesve të tingëllojnë më mirë dhe të personalizojnë zërin e tyre të ndërtuar rreth zërit të tyre të vërtetë?

Mësimi i makinerisë është në qendër të shumicës së veçorive të reja të Voicemod.

Për sa i përket anës krijuese, Voicemod's Voicelab ka krijuar teknologjinë e parë të konvertimit të zërit në kohë reale në treg që do t'i lejojë përdoruesit të zgjedhin identitetin e tyre zanor, duke krijuar zëra personalë për secilin.

Me teknologjinë tonë të re, të avancuar që do të publikohet së shpejti, ne krijojmë zëra të padëgjuar më parë me karakteristika unike që do të ndihmojnë në mbrojtjen e privatësisë dhe sigurisë së përdoruesve, duke i lejuar në të njëjtën kohë të krijojnë personalitetin e tyre të dëshiruar përmes zërit.

Ne kemi vërejtur gjithashtu se metodologjitë e të mësuarit të thellë të drejtuara nga të dhënat shfaqen në vitet e fundit. Këto na mundësojnë të mësojmë strukturat e fshehura abstrakte brenda sinjaleve të të folurit që kanë të bëjnë me karakteristikat perceptuese të zërit si fonologjia, përmbajtja, identiteti, qëllimi dhe disponimi. Duke përdorur këto teknologji, ne mund të kontrollojmë dhe modifikojmë aspektet perceptuese të sinjalit. Kjo na lejon të dizajnojmë teknologji që u japin përdoruesve më shumë kontroll mbi identitetet e perceptuara të zërit të tyre në një mënyrë që nuk ishte e mundur më parë.

Cilat janë disa nga rastet e përdorimit të aplikacionit Voicemod?

Gjëja më e mirë për Voicemod është se veglat e tij shërbejnë për një shumëllojshmëri të gjerë nevojash dhe skenarësh. situatat më të zakonshme do të ishin për krijimin e përmbajtjes, lojërat me miqtë, bisedën me familjen ose miqtë, krijimin e mjediseve gjithëpërfshirëse të luajtjes së roleve, apo edhe për punë dhe biznes – ku përdoruesit përdorin kryesisht mjetet tona të anulimit të zhurmës dhe përmirësimit të audios.

A mund të diskutoni disa nga sfidat dhe përfitimet e nisjes së një startup-i me vëllezërit e motrat?

Sinqerisht, do të më pëlqente, dhe e di që sigurisht të gjithë përballen me sfida në disa mënyra, por në fakt nuk mund të mbaj mend shumë në rastin tonë. Arsyeja është se ne vijmë nga një familje shumë e madhe. Gjithmonë bënim diçka së bashku, nga projektet e fëmijërisë deri tek luajtja e muzikës dhe krijimi. Ishte e natyrshme që do të përfundonim duke punuar së bashku. Vëllezërit e mi Fernando dhe Juan – të cilët siç e përmenda bashkëthemeluan Voicemod së bashku me mua – kishin tashmë disa kompani së bashku, kështu që ata kishin shumë përvojë në këtë drejtim. Unë u bashkua me ta në vitin 2010 në kompaninë e tyre, e cila ishte 2taptap, kështu që edhe unë e ndjeva atë. Kjo do të thotë që kur krijuam Voicemod, ne e bëmë atë plotësisht të lidhur me atë që duam të arrijmë dhe më e rëndësishmja se si duam ta realizojmë atë. Si i tillë, me të vërtetë ka ndihmuar në sjelljen e një kulture shumë të fortë vlerash të përafruara në Voicemod, e cila ka qenë një çelës i vërtetë i suksesit tonë.

A ka ndonjë gjë tjetër që dëshironi të ndani në lidhje me Voicemod?

Ka shumë që po ndodhin prapa skenave, por në përputhje me ne që dëshirojmë të evoluojmë tingullin për gjithkush, aktualisht jemi duke punuar për diçka për ta bërë teknologjinë tonë edhe më… të aksesueshme. Një mënyrë për çdo zhvillues për të përdorur teknologjinë tonë në produktin e tyre

Ne e dimë se njerëzit e kalojnë pjesën më të madhe të kohës së zgjimit në internet, të kyçur në prizë, duke u shprehur në platforma dhe aplikacione të ndryshme. Në mjediset online, 'avatari' juaj është i gjithë vetë-përfaqësimi juaj. Dhe në të vërtetë, kush është ai person pa zë?

Ndërtimi i teknologjisë së ndryshimit të zërit në kohë reale dhe zhvillimi i një sistemi të shprehjeve zanore plotësisht të personalizueshme është shumë punë. Ekipi ynë e ka nxjerrë atë hap jashtë ekuacionit duke projektuar një komplet të tërë që mund të integrohet lehtësisht nga zhvilluesit kudo. Ne jemi jashtëzakonisht të ngazëllyer për ta bërë teknologjinë tonë të aksesueshme për zhvilluesit dhe përdoruesit në të gjithë botën, ndërsa vazhdojmë të ndërtojmë të ardhmen e përvojave audio sociale!

Faleminderit për intervistën e mrekullueshme, lexuesit që dëshirojnë të mësojnë më shumë duhet ta vizitojnë modul zëri

Një partner themelues i unite.AI dhe një anëtar i Këshilli i Teknologjisë i Forbes, Antoine është një futurist i cili është i apasionuar pas të ardhmes së AI dhe robotikës.

Ai është gjithashtu Themeluesi i Letrat me vlerë.io, një faqe interneti që fokusohet në investimin në teknologjinë përçarëse.