никулец Хаиме Бош, извршен директор, Voicemod - серија на интервјуа - Unite.AI
Поврзете се со нас

Интервјуа

Хаиме Бош, извршен директор, Voicemod – серија интервјуа

mm

Објавено

 on

Хаиме Бош е извршен директор на Војчемод бесплатен софтвер за менување глас за гејмери, креатори на содржини и vtubers.

Можете ли да ја споделите приказната за генезата зад Voicemod?

Како 8-мо од 10-те деца, пораснав во средина каде што можев целосно да го развијам мојот претприемачки дух уште од најмала возраст, бидејќи секогаш имаше поддршка од браќата и сестрите со слично размислување.

Како таков, беше само прашање на време што јас и двајца мои браќа, сите заедно со длабока љубов кон технологијата и музиката, се поигравме со идејата да создадеме апликација што ги спојува нашите интереси. Така, во 2009 година, го направивме токму тоа и создадовме апликација за музика B2C како дополнителна гужва за студискиот бизнис што го водевме како наша главна занимање.

Бидејќи тоа беше спореден проект, експериментиравме многу со работи како Модулација на глас, што не инспирираше да создадеме нешто сосема ново и ново. Резултатот од ова беше она што го нарековме „Искуство со Voicemod“ – сосема нов начин да се доживее сопствениот глас – што стана движечка сила на еволуцијата на апликацијата. Без разлика кој го пробал нашиот софтвер, постојано се среќаваме со исти реакции од луѓето што ја доживеале апликацијата: смеа и чудење кога се слушате себеси на сосема поинаков начин.

Ова нè наведува да ја преобликуваме нашата визија за производот, во нешто што на крајот би можело да ја развие човечката врска преку медиумот на звукот. Така, го донесовме искуството од мобилниот на компјутерот, каде што веднаш беше забележано од експлозивната сцена за игри и стриминг - а остатокот е, како што вели еден, „историја“.

Voicemod првично беше спореден проект - кога сфативте дека сакате да одите на all-in?

Првично, јас и моите браќа имавме студио заедно наречено 2taptap. Кога дојдовме до идејата да го создадеме Voicemod, тоа првично беше само забавен спореден проект, но како одминуваше времето, видовме како луѓето комуницираат со него и видот на потенцијалот што го има технологијата. До тој момент, повеќето технологии за промена на гласот беа асинхрони, така што за многу луѓе беше новост да се чувствувате како некој друг во реално време. Дефинитивниот момент за нас, сепак, беше сознанието дека луѓето ја користат нашата технологија не само за да се забавуваат, туку и да го обликуваат целиот свој начин на изразување на интернет. Ова е моментот кога сфативме дека градиме нешто што не се однесува само на забава, туку можеби и на следниот чекор во иднината на социјалните аудио искуства.

Дали би можеле да разговарате за некои од технологиите за препознавање глас?

Со опсегот на менувачи на гласови во нашиот каталог, постојат процеси кои се подложени за да се земе редовен човечки глас и да се трансформира во нешто ново. Се разбира, има и аспекти во нечиј глас кои треба да се земат предвид, како што се возраста, полот, емоциите и само едноставните варијации во начинот на кој некој зборува.

Овие варијации придонесуваат за тоа како некој може да звучи и да влијае на промените што се применуваат. Ние користиме елементи од најсовремената технологија за препознавање глас за да ја олесниме конверзијата и трансформацијата на гласот што е можно попрецизно - и постојано се подобруваме со овој процес. Сакаме да им дадеме на луѓето можност да структурираат како се перцепирани, да звучат како сакаат да бидат слушнати и да ѝ пружат одлично искуство на слушање на нивната публика.

Зошто е важно да им се помогне на луѓето да се изразат преку звук?

Од моментот на раѓање и првиот врисок на бебето, звукот е природниот начин преку кој учиме да се изразуваме. Како што старееме, важноста на аудио комуникацијата продолжува да расте, бидејќи учиме да го обликуваме звукот во јазик и да ги користиме нашите гласови за да внесеме емоции и нијанси во зборовите што ги зборуваме. Подигнувајќи го тонот на нашиот глас, можеме да сигнализираме возбуда - или да користиме звучни ефекти како што се воздишки или стенкање за да ставиме посебен акцент на точките што сакаме да ги истакнеме.

За некои навистина талентирани луѓе, гласот е инструмент за неограничено изразување - бидејќи тие можат да создадат неограничено количество звучни ефекти или гласови. Повеќето од нас, сепак, немаат толку среќа и всушност се чувствуваат непријатно со нашите гласови (особено кога ги слушаме снимени). Некои од нашите корисници зборуваат дека се чувствуваат нервозни кога зборуваат пред странци и се фрустрирани што не можат правилно да се изразат на начин на кој тие би сакале.

Ова е местото каде што гледаме огромна можност да им помогнеме на луѓето. Со нашите гласовни идентитети, корисниците можат да го обликуваат својот глас да биде нешто со што се чувствуваат удобно - или дури и да се лизгаат во различни гласови за специфични ситуации. Исто така, сакаме да ги поттикнеме да користат звучни ефекти, музички клипови или аудио емотикони за да создадат амбиент, да пренесуваат контекст или да имплементираат комични ефекти - слично на тоа како графичките емотикони помогнаа да се обликува текстуалната комуникација.

Го опишавте Voicemod како еволуирачка човечка врска преку звук, може ли да елаборирате за ова?

Покрај ослободувањето на говорникот и отстранувањето на одредена ментална блокада што ги спречува луѓето да зборуваат, ние исто така работиме да ја направиме оваа врска подлабока. На пример, нашата звучна плоча ја презема комуникацијата и ја издигнува на следното ниво - замислете ја како „аудио емотикони“. Можете ли да замислите луѓе под 35 години да разговараат без да користат емотикони? Иако оваа технологија постои со векови, таа навистина стана длабоко вградена во нашата комуникација од околу 2010 година. Видовме сличен тренд со налепници на платформите за пораки, порастот на гласовните пораки и гласовните белешки, а сега и новата употреба на GIF и Giphy. Со зголемувањето на светските аудио комуникации, важноста за тоа како го користиме звукот се зголемува. Испраќањето аудио реакција на шегата на вашиот пријател може да каже многу повеќе за вашата сурова, искрена реакција отколку само да пишувате реченица. Замислете ја разликата помеѓу слушањето на звукот на штурците и ба дум цс! Сите тие имаат многу различни значења и чувства кои лесно можете да ги пренесете со само еден клик.

Сакаме да им олесниме што е можно на корисниците да користат гласови, гласовни ефекти и аудио емотикони за да имаат попривлечни аудио разговори со пријателите, семејството или странците.

Кои се некои од технологиите за машинско учење зад апликацијата Voicemod, вклучувајќи овозможување на корисниците да звучат подобро и да го приспособат својот глас изграден околу нивниот вистински глас?

Машинското учење е во срцето на повеќето нови функции на Voicemod.

Што се однесува до креативната страна, Voicemod's Voicelab ја создаде првата технологија за конверзија на глас во реално време на пазарот што ќе им овозможи на корисниците да изберат свој звучен идентитет, создавајќи лични гласови за секој од нив.

Со нашата нова, напредна технологија што ќе биде објавена наскоро, создаваме досега нечуени гласови со уникатни карактеристики кои ќе помогнат да се заштити приватноста и безбедноста на корисниците, а во исто време да им се овозможи да ја создадат својата посакувана личност преку звук.

Исто така, забележавме дека во последниве години се појавуваат методологии за длабоко учење управувани од податоци. Тие ни овозможуваат да научиме апстрактни скриени структури во говорните сигнали кои се однесуваат на перцептивните карактеристики на гласот како што се фонологијата, содржината, идентитетот, намерата и расположението. Користејќи ги овие технологии, можеме да ги контролираме и модифицираме перцептивните аспекти на сигналот. Ова ни овозможува да дизајнираме технологии кои им даваат на корисниците поголема контрола врз нивните согледани гласовни идентитети на начин што претходно не беше возможен.

Кои се некои од случаите за употреба за апликацијата Voicemod?

Добрата работа кај Voicemod е тоа што неговите алатки опслужуваат широк спектар на потреби и сценарија. Почестите ситуации би биле за креирање содржина, играње со пријателите, разговор со семејството или пријателите, создавање извонредни средини за играње улоги, па дури и за работа и бизнис - каде што корисниците главно ги користат нашите алатки за поништување на шум и аудио подобрување.

Дали би можеле да разговарате за некои од предизвиците и придобивките од започнувањето на стартап со браќата и сестрите?

Искрено, би сакал, и знам дека секако секој на некој начин се соочува со предизвици, но всушност не можам да се сетам на многу во нашиот случај. Причината е што потекнуваме од многу големо семејство. Секогаш правевме нешто заедно, од проекти од детството до свирење музика и создавање. Беше сосема природно што ќе завршиме да работиме заедно. Моите браќа Фернандо и Хуан - кои како што спомнав заедно со мене го основаа Voicemod - веќе имаа неколку компании заедно, така што имаа многу искуство во тој поглед. Им се придружив уште во 2010 година во нивното друштво, кое беше 2taptap, па и јас го почувствував тоа. Ова значи дека кога го создадовме Voicemod, го направивме тоа целосно усогласени со она што сакаме да го постигнеме и уште поважно како сакаме да го постигнеме. Како таков, навистина помогна да се донесе многу силна култура на усогласени вредности во Voicemod, што беше вистински клуч за нашиот успех.

Дали има нешто друго што би сакале да го споделите за Voicemod?

Многу работи се случуваат зад сцената, но во склад со тоа што сакаме да го развиваме звукот сите, моментално работиме на нешто за да ја направиме нашата технологија уште подостапна... Начин за секој развивач да ја користи нашата технологија во својот производ

Знаеме дека луѓето поголемиот дел од времето на будење го поминуваат онлајн, приклучени, изразувајќи се на различни платформи и апликации. Во онлајн средини, вашиот „аватар“ е целото ваше самопретставување. И навистина, кој е тој човек без глас?

Создавањето технологија за менување глас во реално време и развивање систем на целосно приспособливи звучни изрази е многу работа. Нашиот тим го направи тој чекор надвор од равенката со дизајнирање на цел комплет што лесно може да се интегрира од програмерите насекаде. Исклучително сме возбудени што ќе ја направиме нашата технологија достапна за програмерите и корисниците ширум светот, додека продолжуваме да ја градиме иднината на социјалните аудио искуства!

Ви благодариме за одличното интервју, читателите кои сакаат да дознаат повеќе треба да го посетат Војчемод

Основачки партнер на unite.AI и член на Технолошкиот совет на Форбс, Антоан е а футуристички кој е страстен за иднината на вештачката интелигенција и роботиката.

Тој е и основач на Хартии од вредност.io, веб-страница која се фокусира на инвестирање во непушачка технологија.