заглушки Хайме Бош, генеральний директор Voicemod - Серія інтерв'ю - Unite.AI
Зв'язатися з нами

інтерв'ю

Хайме Бош, генеральний директор Voicemod – серія інтерв’ю

mm

опублікований

 on

Хайме Бош є генеральним директором Голосовий мод безкоштовне програмне забезпечення для зміни голосу для геймерів, творців контенту та користувачів відео.

Чи можете ви поділитися історією генезису Voicemod?

Будучи 8-м із 10 дітей, я виріс у середовищі, де я міг повністю розкрити свій підприємницький дух з самого раннього віку, оскільки завжди була підтримка подібних братів і сестер.

Таким чином, це було лише питанням часу, коли ми з двома моїми братами, усі ми поділяємо глибоку любов до технологій і музики, погралися з ідеєю створити програму, яка б поєднала наші інтереси. Тож у 2009 році ми зробили саме це та створили музичний додаток B2C як побічний додатковий допоміжний бізнес студійного бізнесу, яким ми керували як нашим основним заняттям.

Оскільки це був побічний проект, ми багато експериментували з такими речами, як модуляція голосу, що надихнуло нас створити щось абсолютно нове та нове. Результатом цього стало те, що ми назвали «Voicemod Experience» — абсолютно новий спосіб відчути власний голос, — який став рушійною силою еволюції програми. Незалежно від того, хто пробував наше програмне забезпечення, ми постійно стикалися з однаковою реакцією людей, які стикалися з додатком: сміх і подив від того, що ви чуєте себе зовсім по-іншому.

Це спонукало нас змінити наше бачення продукту на щось, що зрештою могло б розвинути людський зв’язок за допомогою звуку. Тож ми перенесли цей досвід із мобільних пристроїв на ПК, де його миттєво підхопили надзвичайні темпи ігор і потокової передачі – а решта, як кажуть, «історія».

Спочатку Voicemod був побічним проектом — коли ви зрозуміли, що хочете піти ва-банк?

Спочатку ми з братами мали спільну студію під назвою 2taptap. Коли у нас виникла ідея створити Voicemod, спочатку це був лише цікавий побічний проект, але з часом ми побачили, як люди взаємодіють із нею та потенціал цієї технології. До цього моменту більшість технологій зміни голосу були асинхронними, тому можливість відчути себе кимось іншим у режимі реального часу для багатьох людей була новинкою. Однак визначальним моментом для нас стало усвідомлення того, що люди використовують нашу технологію, щоб не просто розважатися, а й формувати свій спосіб самовираження в Інтернеті. Саме тоді ми зрозуміли, що створюємо щось, що стосувалося б не лише розваг, а й, можливо, наступного кроку в майбутньому соціального аудіо.

Чи могли б ви обговорити деякі технології розпізнавання голосу?

У асортименті пристроїв для зміни голосу в нашому каталозі є процеси, за допомогою яких звичайний людський голос перетворюється на щось нове. Звичайно, є також аспекти голосу, які слід враховувати, наприклад вік, стать, емоції та просто прості варіації в тому, як людина говорить.

Ці варіації впливають на те, як хтось може звучати, і впливають на зміни, які застосовуються. Ми використовуємо елементи найсучаснішої технології розпізнавання голосу, щоб полегшити конвертацію та трансформацію голосу якомога точніше — і постійно вдосконалюємо цей процес. Ми хочемо дати людям можливість структурувати те, як їх сприймають, звучати так, як вони хочуть, щоб їх почули, і дати своїй аудиторії чудовий досвід слухання.

Чому важливо допомагати людям виражати себе за допомогою звуку?

З моменту нашого народження й першого крику дитини звук є природним способом, за допомогою якого ми вчимося виражати себе. У міру того, як ми стаємо старшими, важливість аудіоспілкування продовжує зростати, оскільки ми вчимося формувати звук у мові та використовувати свій голос, щоб додати емоцій і відтінків у слова, які ми говоримо. Підвищуючи висоту голосу, ми можемо сигналізувати про хвилювання – або використовувати звукові ефекти, такі як зітхання чи стогін, щоб особливо підкреслити те, що ми хочемо сказати.

Для деяких справді талановитих людей голос є інструментом необмеженого самовираження, оскільки вони можуть створювати необмежену кількість звукових ефектів або голосів. Більшості з нас, однак, не так пощастило, і ми насправді почуваємося некомфортно з нашими голосами (особливо, коли ми чуємо їх у записі). Деякі з наших користувачів говорять про те, що вони нервують, коли говорять перед незнайомцями, і розчаровані через те, що не можуть належним чином виразити себе так, як їм хотілося б.

Саме тут ми бачимо величезну можливість допомогти людям. За допомогою наших голосових ідентифікацій користувачі можуть формувати свої голоси так, щоб вони відчували себе комфортно – або навіть змінювати голоси для конкретних ситуацій. Ми також хочемо надати їм можливість використовувати звукові ефекти, музичні кліпи чи аудіо емодзі, щоб створити атмосферу, передати контекст або застосувати комічні ефекти – подібно до того, як графічні емодзі допомогли сформувати текстове спілкування.

Ви описали Voicemod як еволюцію людського зв’язку через звук, чи могли б ви розповісти про це?

Окрім звільнення мовця та усунення певного ментального блоку, який заважає людям говорити, ми також працюємо над тим, щоб зробити цей зв’язок глибшим. Наприклад, наша звукова дошка підтримує спілкування та піднімає його на новий рівень — уявіть це як «аудіо емодзі». Чи можете ви уявити людей віком до 35 років, які спілкуються в чаті без використання емодзі? Хоча ця технологія існує вже багато років, насправді вона глибоко вкоренилася в нашому спілкуванні приблизно з 2010 року. Ми спостерігали подібну тенденцію з наклейками на платформах обміну повідомленнями, зростання голосових повідомлень і голосових нотаток, а тепер нові використання GIF-файлів і Giphy. З масштабуванням аудіокомунікацій у всьому світі зростає важливість того, як ми використовуємо звук. Надсилання звукової реакції на жарт вашого друга може розповісти набагато більше про вашу необроблену, чесну реакцію, ніж просто введення речення. Уявіть різницю між звуком цвіркунів і ба дум цс! Усі вони містять дуже різні значення та почуття, які ви можете легко передати одним клацанням миші.

Ми хочемо, щоб користувачам було якомога легше використовувати голоси, голосові ефекти та аудіосмайли, щоб мати більш цікаві аудіорозмови з друзями, родиною чи незнайомими людьми.

Які технології машинного навчання лежать в основі програми Voicemod, зокрема дозволяють користувачам краще звучати та налаштовувати їхній голос, створений відповідно до їх справжнього голосу?

Машинне навчання є основою більшості нових функцій Voicemod.

Щодо творчої сторони, Voicelab від Voicemod створила першу на ринку технологію перетворення голосу в реальному часі, яка дозволить користувачам вибирати власну звукову ідентичність, створюючи особисті голоси для кожного.

Завдяки нашій новій вдосконаленій технології, яка незабаром буде випущена, ми створюємо голоси, які ніколи раніше не чули, з унікальними характеристиками, які допоможуть захистити конфіденційність і безпеку користувачів, і в той же час дозволять їм створити бажану індивідуальність за допомогою звуку.

Ми також спостерігали за появою методологій глибокого навчання на основі даних в останні роки. Це дозволяє нам вивчати абстрактні приховані структури в мовних сигналах, що стосуються перцептивних характеристик голосу, таких як фонологія, зміст, ідентичність, намір і настрій. Використовуючи ці технології, ми можемо контролювати та змінювати перцептивні аспекти сигналу. Це дозволяє нам розробляти технології, які дають користувачам більше контролю над сприйнятою голосовою ідентифікацією таким чином, який був неможливий раніше.

Які варіанти використання програми Voicemod?

Чудова річ у Voicemod полягає в тому, що його інструменти задовольняють різноманітні потреби та сценарії. більш поширеними ситуаціями є створення вмісту, ігри з друзями, спілкування в чаті з сім’єю чи друзями, створення захоплюючих рольових ігор або навіть для роботи та бізнесу, де користувачі в основному використовують наші інструменти шумозаглушення та покращення звуку.

Чи могли б ви обговорити деякі проблеми та переваги запуску стартапу з братами та сестрами?

Чесно кажучи, я б хотів, і я знаю, що, звичайно, кожен стикається з певними труднощами, але насправді я не можу пригадати багатьох у нашому випадку. Причина в тому, що ми з дуже великої родини. Ми завжди щось робили разом, від дитячих проектів до музикування та творчості. Цілком природно, що ми закінчили працювати разом. Мої брати Фернандо та Хуан, які, як я вже згадував, були співзасновниками Voicemod разом зі мною, уже мали кілька спільних компаній, тому вони мали великий досвід у цьому відношенні. Я приєднався до них у 2010 році в їхній компанії, яка була 2taptap, тож я також відчув це. Це означає, що коли ми створювали Voicemod, ми повністю орієнтувалися на те, чого ми хочемо досягти, і, що важливіше, як ми хочемо цього досягти. Таким чином, це дійсно допомогло привнести в Voicemod дуже сильну культуру узгоджених цінностей, що стало справжнім ключем до нашого успіху.

Чи є ще щось, чим ви хотіли б поділитися про Voicemod?

Багато чого відбувається за лаштунками, але ми хочемо розвивати звук все, зараз ми працюємо над тим, щоб зробити нашу технологію ще більш… доступною. Спосіб будь-якого розробника використовувати нашу технологію у своєму продукті

Ми знаємо, що люди проводять більшу частину свого часу онлайн, підключені до мережі, висловлюючи свої думки на різних платформах і програмах. В онлайн-середовищі ваш «аватар» — це ваша повна саморепрезентація. І справді, хто ця людина без голосу?

Створення технології зміни голосу в реальному часі та розробка системи звукових виразів, які повністю настроюються, — це велика робота. Наша команда вийшла з цього рівняння, розробивши цілий комплект, який розробники можуть легко інтегрувати будь-де. Ми надзвичайно раді зробити нашу технологію доступною для розробників і користувачів у всьому світі, оскільки ми продовжуємо будувати майбутнє соціальних аудіо!

Дякую за чудове інтерв’ю, читачі, які хочуть дізнатися більше, повинні відвідати Голосовий мод

Партнер-засновник unite.AI і член Технологічна рада Forbes, Антуан - це а футурист який захоплений майбутнім ШІ та робототехніки.

Він також є засновником Securities.io, веб-сайт, який зосереджується на інвестиціях у революційні технології.