Interviuri
Nick Lahoika, Co-Fondator și CEO al Vocal Image – Seria de Interviuri

Nick Lahoika este co-fondator și CEO al Vocal Image, o companie de coaching care ajută oamenii să dezvolte abilități sociale. Antreprenor serial cu peste 10 ani de experiență în IT și dezvoltare de afaceri, Nick a ieșit cu succes din două venture înainte de a crea Vocal Image. Călătoria lui Nick este profund personală; a fost hărțuit pentru dicție neclară la școală, ceea ce l-a inspirat să ajute oamenii să comunice mai bine.
După ce a fost forțat să fugă din țara natală în urma revoluției din 2020, Nick a ajuns în Estonia cu cunoștințe minime de engleză și a folosit propria aplicație pentru a-și antrena vocea, obținând primul său tur de finanțare în doar șase luni. Câștigător al concursului AWS AI Challenge și al programului Meta x Hugging Face European AI Startup, Vocal Image a strâns recent o rundă de finanțare de 3,6 milioane de dolari condusă de Educapital (Franța) și a ajuns la peste 14 milioane de dolari venituri anuale.
Ai fondat Vocal Image în 2021. Ce te-a inspirat să construiești un antrenor de abilități sociale AI și ce problemă încercrai să o rezolvi de la început?
Anxietatea de a vorbi a fost o parte a vieții mele pentru o perioadă lungă de timp. Am fost hărțuit la școală pentru dicția neclară și acea experiență m-a marcat cu adevărat. Mai târziu, ca student intern în IT, trebuia să prezint clienților de nivel înalt și aceeași frică s-a întors.
Apoi, în 2021, după revoluția eșuată din Belarus, am fost nevoit să mă mut în Europa peste noapte. Brusc, trebuia să prezint investitorilor în engleză, o limbă pe care abia o vorbeam. A fost înfricoșător, dar nu aveam de ales. Am petrecut ore în fiecare zi practicând pronunția mea folosind o versiune foarte timpurie a ceea ce avea să devină Vocal Image. A durat chiar și săptămâni doar pentru a învăța cum să pronunț corect sunetul “V” pentru a putea spune numele propriului meu companie.
Am început cu o aplicație care era esențialmente ca YouTube, dar cu un înregistrator de voce și o funcție de comentarii. Utilizatorii puteau urmări videoclipuri, practica repetând replicile și apoi asculta înregistrările proprii. Urmărind cum oamenii o foloseau, am realizat rapid că au nevoie disperată de feedback. Utilizatorii noștri de la început ne-au arătat că simpla consumare de conținut nu a fost suficientă pentru a obține rezultate reale; aveau nevoie de feedback imediat. Am încercat să oferim feedback prin antrenori umani, dar acea abordare nu a fost scalabilă, ceea ce ne-a condus la utilizarea AI.
A fost o insight personală că a fost mai ușor pentru mine să pot practica primele mele prezentări cu platforma noastră în loc de a o face cu o persoană. Nu a existat nicio presiune, nicio judecată. Acea libertate a schimbat totul pentru mine. Odată ce am rezolvat propria mea problemă, am realizat câți oameni se confruntă cu aceeași problemă. Mai mult de 200 de milioane de oameni se confruntă cu anxietatea de a vorbi.
Înainte de Vocal Image, ai condus o școală de dans. Cum a influențat acea experiență în mișcare și expresie abordarea ta față de comunicare și încredere vocală?
Nu eram dansator; de fapt, am construit o afacere centrată pe exprimarea de sine și oameni. A fost prin acea muncă că am realizat că poți spune multe despre încrederea interioară a unei persoane doar urmărindu-i dansul.
Mișcarea joacă, de asemenea, un rol enorm în modul în care te exprimi. Modul în care te miști, postura, respirația, toate acestea fac parte din comunicare. Acolo este unde antrenamentul cu AI devine puternic, deoarece poate ajuta oamenii să se antreneze în toate aceste domenii într-un singur loc.
Înainte, companiile trebuiau să angajeze mai mulți antrenori diferiți. Unul pentru vorbirea în public, unul pentru limbajul corpului, unul pentru încredere. Acum, cu AI, totul este conectat. Poți construi imaginea de ansamblu a comunicării, nu doar o parte a ei.
În contrast cu majoritatea instrumentelor de comunicare AI, ai decis să nu folosești ChatGPT ca fundament pentru antrenorul tău. Ce te-a condus la acea decizie?
Hipa din jurul ChatGPT a devenit un punct de cotitură uriaș pentru noi. Când a devenit mainstream, a creat un salt masiv în încrederea în AI și am putut să profităm de asta pentru a face oamenii să creadă în tehnologia noastră.
Dar iată problema: nu am vrut să o folosim ca fundament. Scopul nostru de la început a fost să folosim modelul nostru unic pentru a evalua vocea și tiparele de vorbire ale oamenilor. Folosim modele de limbaj mare, cum ar fi Gemini, Claude și ChatGPT, și baze de cunoștințe, sfaturi și trucuri din literatura de comunicare în modelele noastre actuale, dar ele nu reprezintă nucleul mecanismului nostru de feedback. Fundamentul real al feedback-ului nostru este intrarea umană.
Teama că antrenamentul cu AI să pară robotic este reală. Pentru a contracara asta, am creat o comunitate în cadrul Vocal Image unde utilizatorii pot conecta instantaneu, pot împărtăși obiectivul comun de a-și îmbunătăți comunicarea și pot sprijini drumul celorlalți. Și această comunitate crește și îmbunătățește constant AI-ul nostru.
Poți să explici cum antrenarea AI exclusiv pe voci umane diferă de abordările tradiționale LLM în ceea ce privește rezultatele și autenticitatea?
Folosim modele de limbaj mare ca parte a procesului de evaluare și context, dar fundația reală a sistemului nostru este datele din spatele lui. Modelul nostru de bază a fost antrenat pe comunitatea noastră, formată din oameni care s-au unit special pentru a-și îmbunătăți abilitățile de comunicare.
AI-ul este la fel de bun pe cât sunt oamenii de la care învață. Setul nostru de date propriu conține acum peste un milion de voci umane unice, fiecare purtând ton, ritm și emoție, toate reprezentând esența reală a comunicării.
Setul dvs. de date include peste un milion de voci umane. Care au fost provocările pe care le-ați întâmpinat la curățarea și etichetarea unui astfel de corpus unic?
Nu poți să te bazezi în mod egal pe fiecare punct de date. Unii utilizatori evaluează cu atenție, alții doar fac clic. Trebuia să proiectăm un sistem care să distingă feedback-ul gândit de zgomot. De-a lungul timpului, am învățat să dăm mai multă greutate utilizatorilor cu participare consistentă și judecată fiabilă, în timp ce filtram input-ul aleator.
Partea cea mai grea a fost operațională, care a implicat construirea unui ecosistem de evaluare care răsplătește calitatea în loc de cantitate. Acolo este unde comunitatea noastră a devenit inestimabilă. Acești oameni nu sunt utilizatori aleatorii de internet, ci oameni care își doresc cu adevărat să-și îmbunătățească abilitățile sociale și să-i ajute pe alții să facă același lucru. Toate evaluările sunt anonime, ceea ce ajută la menținerea feedback-ului imparțial și autentic.
Mecanismul de evaluare “Tinder-like” condus de comunitate este fascinant — cum funcționează această buclă de feedback pentru învățarea continuă a AI-ului dvs.?
Fiecare evaluare, în orice limbă, devine un mic fragment de inteligență care rafinează modelul nostru. Este o buclă de feedback vie. Cu cât mai mulți oameni se antrenează și evaluează, cu atât sistemul devine mai inteligent în a recunoaște nuanțele vorbirii și emoției, învățând cum oamenii percep cu adevărat încrederea, căldura sau autoritatea în diferite culturi.
Care au fost lecțiile principale învățate în timpul dezvoltării unui model AI centrat pe abilități sociale, mai degrabă decât pe competențe tehnice?
Principala provocare a fost măsurarea. Nu există o metrică universală pentru “de încredere” sau “carismatic”. Trebuia să creăm propria noastră.
Aici a intervenit Legea numerelor mari . Dacă 100.000 de oameni sunt de acord că o anumită voce sună încrezătoare sau empatică, poți începe să ai încredere în acea percepție colectivă. De-a lungul timpului, am învățat AI-ul să prezică calități subiective, lucruri care nu pot fi notate cu un simplu corect sau incorect. Acesta a fost punctul de cotitură: învățarea să cuantifici ceea ce fusese întotdeauna considerat intangibil.
Cu 14 milioane de dolari venituri anuale și o nouă rundă de finanțare de 3,6 milioane de dolari, care sunt principalele dvs. priorități pentru această etapă de creștere — fie prin îmbunătățirea modelului AI, extinderea bazei de utilizatori sau adâncirea experienței comunitare?
Misiunea noastră a fost întotdeauna centrată pe om. Ajutăm oamenii să comunice cu mai multă încredere și autenticitate.
Următoarea etapă este despre scalarea acestui impact la nivel global. Ne extindem în noi limbi și geografii și dezvoltăm noi module de abilități sociale, cum ar fi negocierea, ascultarea activă și elocvența.
Mulți utilizatori spun că antrenorii AI par robotici sau impersonali. Cum vă asigurați că Vocal Image oferă feedback emoțional rezonant și conștient de context?
Ne concentrăm pe hiper-personalizare. De la prima interacțiune, învățăm cine ești, inclusiv accentul, vârsta, contextul profesional și tiparele de vorbire. De-a lungul timpului, avem memorie, reamintindu-ne cum ai progresat, unde te confrunți cu dificultăți și ce feedback rezonă cel mai mult.
Acest lucru ne permite să adaptăm dinamic AI-ul. Experiența pare personală pentru că este personală. Este modelată în întregime de datele și drumul tău, nu de un script generic.
Privind spre viitor, cum vedeți evoluția antrenamentului de abilități sociale AI pe măsură ce AI-ul generativ și emoțional continuă să se maturizeze?
Dezvoltarea umană a fost întotdeauna un amestec de natură și educație. Știința ne spune că leadership-ul este aproximativ jumătate înnăscut, jumătate învățat. Partea învățată era rezervată anterior executivilor care își puteau permite antrenori scumpi. Companiile trebuiau să cheltuiască între 7.000 și 25.000 de dolari pe an pentru a antrena un singur lider. AI-ul schimbă asta.
De asemenea, interacțiunea cu antrenorii umani ar necesita angajarea mai multor antrenori separați, în timp ce un antrenor AI poate înlocui toți aceștia.
În prezent, folosim o conductă de modele diferite pentru a analiza diferite aspecte ale comunicării, dar viitorul este un sistem unic și unificat care evaluează și îndrumă holistic. Această tehnologie va democratiza creșterea. Nu vei mai trebui să fii născut carismatic sau să ai un buget corporativ mare pentru a stăpâni comunicarea. Vei avea nevoie doar de curiozitate și acces, iar crearea mediului pentru ca asta să înflorească este ceea ce mă împinge în fiecare zi.
Mulțumim pentru acest interviu minunat. Citiitorii care doresc să afle mai multe informații ar trebui să viziteze Vocal Image.












