Wywiady

Nick Lahoika, współzałożyciel i CEO Vocal Image – seria wywiadów

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nick Lahoika jest współzałożycielem i CEO Vocal Image, startupem coachingowym, który pomaga ludziom rozwijać umiejętności miękkie. Serialny przedsiębiorca z ponad 10-letnim doświadczeniem w branży IT i rozwoju biznesu, Nick z powodzeniem wycofał się z dwóch przedsięwzięć przed założeniem Vocal Image. Podróż Nicka jest głęboko osobista; był prześladowany za niejasną dykcję w szkole, co zainspirowało jego misję, aby pomóc ludziom lepiej komunikować się.

Po tym, jak został zmuszony do ucieczki z ojczyzny po rewolucji w 2020 roku, Nick przybył do Estonii z minimalną znajomością języka angielskiego i użył swojej własnej aplikacji, aby trenować swój głos, zabezpieczając pierwszą rundę finansowania w ciągu zaledwie sześciu miesięcy. Zwycięzca wyzwania AWS AI i programu Meta x Hugging Face European AI Startup, Vocal Image niedawno pozyskał 3,6 miliona dolarów w rundzie seed finansowanej przez Educapital (Francja) i rozwinął się do ponad 14 milionów dolarów rocznego przychodu.

Założyłeś Vocal Image w 2021 roku. Co skłoniło Cię do budowy trenera AI umiejętności miękkich, a jaki problem próbowałeś rozwiązać na samym początku?

Lęk przed mówieniem był częścią mojego życia przez długi czas. Byłem prześladowany w szkole za niejasną dykcję, a to doświadczenie naprawdę pozostało we mnie. Później, jako student-inżynier, musiałem przedstawiać się wysokim klientom, a ten sam strach powrócił.

Następnie w 2021 roku, po nieudanej rewolucji na Białorusi, musiałem przenieść się do Europy w ciągu jednej nocy. Nagle musiałem przedstawiać się inwestorom w języku angielskim, którym ledwie mówiłem. To było przerażające, ale nie było wyboru. Spędzałem godziny każdego dnia, ćwicząc swoją wymowę, używając bardzo wczesnej wersji tego, co później stało się Vocal Image. Zajęło mi to nawet tygodnie, aby nauczyć się, jak poprawnie wymówić dźwięk „V”, aby móc powiedzieć nazwę własnej firmy.

Zaczynaliśmy z aplikacją, która była podstawowo jak YouTube, ale z wbudowanym nagrywaniem głosu i funkcją komentarzy. Użytkownicy mogli oglądać filmy, ćwiczyć powtarzanie linii i słuchać własnych nagrań. Obserwując, jak ludzie z niej korzystali, szybko zrozumieliśmy, że desperacko potrzebują informacji zwrotnej. Nasi wczesni użytkownicy pokazali nam, że proste konsumowanie treści nie wystarczało, aby uzyskać prawdziwe wyniki; potrzebowali natychmiastowej informacji zwrotnej. Próbowaliśmy dostarczać informację zwrotną za pomocą ludzkich trenerów, ale ten podejście nie było skalowalne, co doprowadziło nas do użycia AI.

Była to moja osobista inspiracja, że łatwiej było mi ćwiczyć pierwsze prezentacje na naszej platformie zamiast z osobą. Nie było żadnego nacisku, żadnego osądu. Ta swoboda wszystko zmieniła dla mnie. Gdy rozwiązałem swój własny problem, zrozumiałem, jak wiele ludzi staje twarzą w twarz z tym samym problemem. Ponad 200 milionów ludzi boryka się z lękiem przed mówieniem.

Przed Vocal Image prowadziłeś studio tańca. Jak Twoje doświadczenie w ruchu i ekspresji wpłynęło na Twój podejście do komunikacji i pewności siebie wokalnej?

Nie byłem tancerzem; w rzeczywistości zbudowałem firmę skupioną na ekspresji siebie i ludzi. To przez tę pracę zrozumiałem, że możesz powiedzieć wiele o wewnętrznej pewności siebie danej osoby, obserwując, jak tańczy.

Ruch odgrywa ogromną rolę w tym, jak się wyrażasz. Sposób, w jaki się poruszasz, twoja postawa, twoje oddychanie, wszystko to jest częścią komunikacji. To tam AI coaching staje się potężny, ponieważ może pomóc ludziom trenować we wszystkich tych obszarach w jednym miejscu.

Dawniej firmy musiały zatrudniać kilku różnych trenerów. Jednego dla publicznych wystąpień, jednego dla języka ciała, jednego dla pewności siebie. Teraz, dzięki AI, wszystko jest połączone. Możesz zbudować pełny obraz komunikacji, a nie tylko jeden jej fragment.

W przeciwieństwie do większości narzędzi komunikacji AI, postanowiliście nie używać ChatGPT jako podstawy dla swojego trenera. Co doprowadziło do tej decyzji?

Hype wokół ChatGPT stał się ogromnym punktem zwrotnym dla nas. Gdy stało się mainstreamowe, stworzyło ogromny wzrost zaufania do AI, a my byliśmy w stanie wykorzystać to, aby ludzie uwierzyli w naszą własną technologię.

Ale oto rzecz: nie chcieliśmy używać go jako naszej podstawy. Naszym celem od samego początku było użycie naszego unikalnego modelu do oceny ludzkich głosów i wzorców mowy. Używamy dużych modeli językowych, takich jak Gemini, Claude i ChatGPT, oraz baz wiedzy, wskazówek i sztuczek z literatury komunikacyjnej w naszych bieżących modelach, ale nie są one rdzeniem naszego mechanizmu informacji zwrotnej. Prawdziwą podstawą naszej informacji zwrotnej jest wprowadzanie ludzkie.

Strach przed tym, że coaching AI może czuć się jak robotyczny, jest realny. Aby przeciwdziałać temu, wytworzyliśmy społeczność w ramach Vocal Image, gdzie użytkownicy mogą natychmiast połączyć się, podzielić wspólnym celem poprawy komunikacji i wesprzeć nawzajem swoją podróż. A ta społeczność nieustannie rośnie i poprawia nasze AI.

Czy możesz wyjaśnić, w jaki sposób szkolenie AI wyłącznie na ludzkich głosach różni się od tradycyjnych podejść opartych na LLM w zakresie wyników i autentyczności?

Używamy dużych modeli językowych jako części procesu oceny i kontekstu, ale prawdziwa podstawa naszego systemu leży w danych, na których się opieramy. Nasz podstawowy model został opracowany na naszej społeczności, składającej się z ludzi, którzy zebrali się specjalnie, aby poprawić swoje umiejętności komunikacyjne.

AI jest tylko tak dobre, jak ludzie, od których się uczy. Nasz własny zestaw danych obejmuje obecnie ponad milion unikalnych ludzkich głosów, z których każdy niesie ton, rytm i emocje, wszystkie reprezentujące prawdziwą esencję komunikacji.

Wasz zestaw danych obejmuje ponad milion ludzkich głosów. Jakie wyzwania spotkały was przy opracowywaniu i oznaczaniu tak unikalnego korpusu?

Nie możesz polegać równie na każdym punkcie danych. Niektórzy użytkownicy oceniają starannie, inni po prostu klikają. Musieliśmy stworzyć system, który różnicuje przemyślaną informację zwrotną od szumu. Z czasem nauczyliśmy się przykładać większą wagę do użytkowników z konsekwentnym udziałem i niezawodnym osądem, jednocześnie filtrując losowe dane wejściowe.

Najtrudniejszą częścią było operacyjne, które obejmowało budowę ekosystemu ocen, który nagradza jakość ponad ilość. To tam nasza społeczność stała się niezwykle cenna. Ci ludzie nie są losowymi użytkownikami internetu; są to ludzie, którzy szczerze starają się poprawić swoje umiejętności miękkie i pomóc innym zrobić to samo. Wszystkie oceny są anonimowe, co pomaga utrzymać informację zwrotną bezstronną i autentyczną.

Mechanizm oceny w stylu Tinder jest fascynujący — jak ten obieg informacji zwrotnej kształtuje nieustanne uczenie się waszego AI?

Każda ocena, w każdym języku, staje się małym kawałkiem inteligencji, który udoskonala nasz model. To żywy obieg informacji zwrotnej. Im więcej ludzi trenuje i ocenia, tym bardziej inteligentny staje się system w rozpoznawaniu niuansów mowy i emocji, ucząc się, jak ludzie naprawdę postrzegają pewność siebie, ciepło lub autorytet w różnych kulturach.

Jakie były kluczowe lekcje, które nauczyliście się podczas tworzenia modelu AI skupionego na umiejętnościach miękkich, a nie na kompetencjach technicznych?

Głównym wyzwaniem była miara. Nie ma uniwersalnego miernika dla „godnego zaufania” lub „charyzmatycznego”. Musieliśmy stworzyć własne.

To jest miejsce, w którym Prawo duzych liczb weszło w grę. Jeśli 100 000 ludzi zgadza się, że pewny głos brzmi pewnie lub empatycznie, możesz zacząć ufać tej zbiorowej percepcji. Z czasem nauczyliśmy nasze AI, aby przewidywać subiektywne jakości, rzeczy, które nie mogą być ocenione prostym prawidłem lub błędem. To było przełomowe: nauczyliśmy się ilościować to, co zawsze było uważane za niematerialne.

Z 14 milionami dolarów rocznego przychodu i świeżą rundą finansowania w wysokości $3,6 miliona, jakie są Twoje główne priorytety dla tego następnego etapu wzrostu — czy jest to rozwój modelu AI, rozszerzenie bazy użytkowników, czy pogłębienie doświadczenia społeczności?

Nasza misja zawsze była ukierunkowana na człowieka. Pomagamy ludziom komunikować się z większą pewnością siebie i autentycznością.

Następna faza dotyczy skalowania tego wpływu na całym świecie. Rozwijamy się w nowe języki i geografie oraz tworzymy nowe moduły umiejętności miękkich, takie jak negocjacje, aktywne słuchanie i elokwencja.

Wiele użytkowników mówi, że trenerzy AI wydają się robotyczni lub nieosobowi. Jak zapewniacie, że Vocal Image dostarcza emocjonalnie rezonującą i świadomą kontekstu informację zwrotną?

Koncentrujemy się na hiper-personalizacji. Od pierwszej interakcji uczymy się, kim jesteś, w tym Twojego akcentu, wieku, kontekstu zawodowego i wzorców mowy. Z czasem mamy pamięć, przypominając, jak się poprawiłeś, gdzie masz trudności i jaka informacja zwrotna najbardziej rezonuje.

Pozwala to AI dostosować się dynamicznie. Doświadczenie jest personalne, ponieważ jest kształtowane całkowicie przez Twoje dane i Twoją podróż, a nie przez ogólny scenariusz.

Spójrzając w przyszłość, jak widzisz ewolucję coachingu AI umiejętności miękkich, gdy AI generatywne i emocjonalne będą nadal dojrzałe?

Rozwój ludzki zawsze był mieszanką natury i wychowania. Nauka mówi nam, że przywództwo jest mniej więcej w połowie wrodzone, a w połowie nabyte. Nabyte połowa była wcześniej zarezerwowana dla menedżerów, którzy mogli sobie pozwolić na drogich trenerów. Przez długi czas firmy musiały wydawać między 7 000 a 25 000 dolarów rocznie na coaching jednego lidera. AI zmienia to.

Ponadto angażowanie się w ludzkich trenerów wymagałoby zatrudnienia wielu oddzielnych trenerów, podczas gdy trener AI może zastąpić wszystkich.

Obecnie używamy potoku różnych modeli do analizy różnych aspektów komunikacji, ale przyszłość to pojedynczy, zintegrowany system, który ocenia i prowadzi cię całościowo. Ta technologia zdemokratyzuje wzrost. Nie będziesz musiał być urodzony charyzmatyczny lub mieć dużego budżetu korporacyjnego, aby opanować komunikację. Będziesz potrzebować tylko ciekawości i dostępu, a tworzenie środowiska do tego jest tym, co napędza mnie każdego dnia.

Dziękuję za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Vocal Image.

Unite.AI

Nick Lahoika, współzałożyciel i CEO Vocal Image – seria wywiadów

You may like