Інтерв’ю
Nick Lahoika, співзасновник і генеральний директор Vocal Image – Серія інтерв’ю

Nick Lahoika є співзасновником і генеральним директором Vocal Image, стартапу з тренінгів, який допомагає людям розвивати м’які навички. Серійний підприємець з більш ніж 10-річним досвідом у сфері ІТ та розвитку бізнесу, Nick успішно вийшов з двох підприємств до створення Vocal Image. Подорож Nickа глибоко особиста; його дражнили за невиразну дикцію в школі, що надихнуло його на місію допомогти людям краще спілкуватися.
Після того, як його змусили покинути свою країну після революції 2020 року, Nick прибув до Естонії з мінімальними знаннями англійської мови та використав свій власний додаток, щоб тренувати свій голос, забезпечивши перший раунд фінансування вже за шість місяців. Переможець AWS AI Challenge та Meta x Hugging Face Європейської програми стартапів з штучного інтелекту, Vocal Image недавно залучив 3,6 мільйона доларів у рамках раунду сіяння, очолюваного Educapital (Франція), та досягнув рівня понад 14 мільйонів доларів щорічного доходу.
Ви заснували Vocal Image у 2021 році. Що надихнуло вас створити тренера з м’яких навичок на основі штучного інтелекту, а яку проблему ви намагалися вирішити на початку?
Тревога за публічні виступи була частиною мого життя протягом довгого часу. Мене дражнили в школі за невиразну дикцію, і цей досвід дійсно залишився зі мною. Пізніше, як студент-стажер у сфері ІТ, мені доводилося виступати перед клієнтами високого рівня, і те ж саме страх повернувся.
Потім у 2021 році, після невдалої революції в Білорусі, мені довелося переїхати до Європи за одну ніч. Раптом я мав.pitch інвесторам англійською, мовою, якої я майже не знав. Це було страшно, але вибору не було. Я проводив години щодня, практикуючи свою вимову, використовуючи дуже ранню версію того, що пізніше стало Vocal Image. Навіть витратив тижні, щоб навчитися правильно вимовляти звук “В”, щоб міг вимовити назву своєї власної компанії.
Ми почали з додатком, який був по суті як YouTube, але з вбудованим записувачем голосу та функцією коментування. Користувачі могли дивитися відео, практикувати повторення рядків, а потім слухати свої власні записи. Спостерігаючи, як люди використовували його, ми швидко зрозуміли, що їм віддесньо потрібна зворотний зв’язок. Наші ранні користувачі показали нам, що просто споживання контенту не було достатнім для отримання реальних результатів; їм потрібен був негайний зворотний зв’язок. Ми спробували надавати зворотний зв’язок через людських тренерів, але такий підхід не був масштабованим, що привело нас до використання штучного інтелекту.
Це була моя особиста ідея, що мені було легше практикувати свої перші презентації з нашою платформою, а не з людиною. Не було тиску, не було судження. Ця свобода все змінила для мене. Як тільки я вирішив свою власну проблему, я зрозумів, скільки людей стикаються з тією ж проблемою. Більше 200 мільйонів людей борються з тревогою за публічні виступи.
До Vocal Image ви керували танцювальною студією. Як ваш досвід у сфері руху та вираження вплинув на ваш підхід до комунікації та вокальної впевненості?
Я не був танцюристом; я фактично створив бізнес, центрований на самовираженні та людей. Саме через цю роботу я зрозумів, що можна багато чого дізнатися про внутрішню впевненість людини, просто спостерігаючи, як вона танцює.
Рух також відіграє величезну роль у тому, як ви виражаєте себе. Ваш рух, ваша постава, ваше дихання – все це частина комунікації. Саме тут тренінг з штучним інтелектом стає потужним, оскільки він може допомогти людям тренувати всі ці аспекти в одному місці.
Раніше компанії мали наймати окремих тренерів. Одного для публічних виступів, одного для мови тіла, одного для впевненості. Тепер, з штучним інтелектом, все це пов’язано. Ви можете створити повну картину комунікації, а не лише одну її частину.
На відміну від більшості інструментів комунікації з штучним інтелектом, ви вирішили не використовувати ChatGPT як основу для свого тренера. Що призвело до цього рішення?
Гіп навколо ChatGPT фактично став величезним поворотним моментом для нас. Коли він став популярним, це створило величезний сплеск довіри до штучного інтелекту, і ми змогли використати це, щоб люди повірили в нашу власну технологію.
Але ось річ: ми не хотіли використовувати його як основу. Наша мета з самого початку була використовувати нашу унікальну модель для оцінки голосу та мовлення людей. Ми використовуємо великі мовні моделі, такі як Gemini, Claude та ChatGPT, а також знання, поради та хитрощі з літератури про комунікацію в наших поточних моделях, але вони не є ядром нашого механізму зворотного зв’язку. Реальне ядро нашого зворотного зв’язку – це людський внесок.
Страх перед тим, що тренінг з штучним інтелектом буде відчуватися роботизованим, є реальним. Щоб протидіяти цьому, ми створили спільноту в рамках Vocal Image, де користувачі можуть миттєво зв’язатися, поділитися спільною метою покращення своєї комунікації та підтримати один одного в їхньому шляху. І ця спільнота постійно росте та покращує наш штучний інтелект.
Чи можете ви розповісти більше про те, як тренування вашого штучного інтелекту виключно на людських голосах відрізняється від традиційних підходів, заснованих на великих мовних моделях, у плані результатів та автентичності?
Ми використовуємо великі мовні моделі як частину процесу оцінки та контексту, але реальне ядро нашої системи – це дані, які стоять за нею. Наша основна модель була навчена на нашій власній спільноті, створеній з людей, які об’єдналися, щоб покращити свої навички комунікації.
Штучний інтелект є тільки такою хорошою, як і люди, яких він вивчає. Наш власний набір даних зараз включає понад один мільйон унікальних людських голосів, кожен з яких несе тон, ритм та емоцію, все це представляє справжню суть комунікації.
Ваш набір даних включає понад мільйон людських голосів. Які виклики ви зустріли під час створення та маркування такого унікального корпусу?
Ви не можете покладатися рівною мірою на кожну точку даних. Деякі користувачі оцінюють ретельно, інші просто клікають. Нам довелося розробити систему, яка відрізняє ретельний зворотний зв’язок від шуму. З часом ми навчилися надавати більше ваги користувачам з послідовною участю та надійним судженням, фільтруючи випадковий вхід.
Найбільш складною була операційна частина, яка полягала у створенні системи оцінювання, яка надає перевагу якості над кількістю. Саме тут наша спільнота стала невід’ємною. Це не випадкові користувачі інтернету, а люди, які щиро намагаються покращити свої м’які навички та допомогти іншим зробити те ж саме. Всі оцінки є анонімними, що допомагає зберігати зворотний зв’язок необмеженим та автентичним.
Спільнота, керована “Tinder-like” механізмом оцінювання, є цікавою – як цей цикл зворотного зв’язку формує подальше навчання вашого штучного інтелекту?
Кожна оцінка, у кожній мові, стає маленькою частиною інтелекту, яка уточнює нашу модель. Це живий цикл зворотного зв’язку. Чим більше людей тренуються та оцінюють, тим розумнішим стає система у розпізнаванні нюансів мови та емоцій, вчиться, як люди насправді сприймають впевненість, теплоту або авторитетність у різних культурах.
Які були ключові уроки, виведені під час розробки моделі штучного інтелекту, центрованої на м’яких навичках, а не на технічних компетенціях?
Основною проблемою було вимірювання. Не існує універсальної міри для “достовірного” або “харизматичного”. Нам довелося створити свою власну.
Саме тут вступає Закон великих чисел. Якщо 100 000 людей погоджуються, що певний голос звучить впевнено або співчутливо, ви можете почати довіряти цій колективній сприйняттю. З часом ми навчили наш штучний інтелект передбачати суб’єктивні якості, речі, які не можуть бути оцінені простим правильним або неправильним. Це був прорив: навчитися кількісно оцінювати те, що завжди вважалося невизначеним.
З 14 мільйонами доларів щорічного доходу та свіжим $3,6-мільйонним раундом сіяння, які ваші основні пріоритети для цього наступного етапу зростання – чи це розвиток моделі штучного інтелекту, розширення бази користувачів або поглиблення досвіду спільноти?
Наша місія завжди була людьми. Ми допомагаємо людям спілкуватися з більшою впевненістю та автентичністю.
Наступний етап – це масштабування цього впливу глобально. Ми розширюємося на нові мови та географічні регіони, та розробляємо нові модулі м’яких навичок, такі як переговори, активне слухання та еloquentність.
Багато користувачів кажуть, що тренери з штучним інтелектом відчуваються роботизованими або безособовими. Як ви забезпечуєте, щоб Vocal Image надавав емоційно резонансний та контекстно-обізнаний зворотний зв’язок?
Ми зосереджуємося на гіперперсоналізації. З першої взаємодії ми вчимося, хто ви є, включаючи ваш акцент, вік, професійний контекст та мовлення. З часом у нас є пам’ять, яка запам’ятовує, як ви покращилися, де ви боретесь, та який зворотний зв’язок резонує найбільш.
Це дозволяє штучному інтелекту адаптуватися динамічно. Досвід відчувається особистим, оскільки він є особистим. Він сформований повністю вашими даними та вашим шляхом, а не якимись загальними сценаріями.
Оглядаючи майбутнє, як ви бачите розвиток тренінгів з м’якими навичками на основі штучного інтелекту, коли генеративний та емоційний штучний інтелект продовжують дозрівати?
Розвиток людини завжди був сумішшю природи та виховання. Наука говорить нам, що лідерство приблизно наполовину вроджене, наполовину вивчене. Вивчене половина раніше була зарезервована для виконавців, які могли собі дозволити дорогих тренерів. Довгий час компанії мали виділяти між 7 000 та 25 000 доларів на рік на тренінг одного лідера. Штучний інтелект змінює це.
Також, залучення людських тренерів потребувало б наймати багатьох окремих тренерів, тоді як тренер з штучним інтелектом може замінити всіх них.
Зараз ми використовуємо трубопровід різних моделей для аналізу різних аспектів комунікації, але майбутнє – це єдина, уніфікована система, яка оцінює та керує вами голістично. Ця технологія демократизує зростання. Вам не потрібно буде народитися харизматичним або мати великий корпоративний бюджет, щоб оволодіти комунікацією. Вам просто потрібно буде цікавість та доступ, а створення середовища для цього – це те, що рухає мене кожен день.
Дякую за велике інтерв’ю, читачам, які бажають дізнатися більше, слід відвідати Vocal Image.












