Intervjuer
Nick Lahoika, medgrunnlegger og CEO av Vocal Image – Intervju-serie

Nick Lahoika er medgrunnlegger og CEO av Vocal Image, et coacheselskap som hjelper mennesker å utvikle myke ferdigheter. En serial entrepreneur med mer enn 10 års erfaring i IT og forretningsutvikling, hadde Nick suksess med to tidligere prosjekter før han etablerte Vocal Image. Nicks reise er dypt personlig; han ble mobbet for uklar diksjon på skolen, noe som inspirerte hans misjon om å hjelpe mennesker å kommunisere bedre.
Etter å ha blitt tvunget til å flykte fra sitt hjemland etter revolusjonen i 2020, ankom Nick Estland med minimalt kommandoen over engelsk og brukte sin egen app til å trene sin stemme, og sikret sin første runde med finansiering innen bare seks måneder. Vinneren av AWS AI-utfordringen og Meta x Hugging Face European AI Startup Program, har Vocal Image nylig samlet inn 3,6 millioner dollar i seed-runden ledet av Educapital (Frankrike) og skalert opp til over 14 millioner dollar i årlig gjentakende inntekt.
Du etablerte Vocal Image i 2021. Hva inspirerte deg til å bygge en AI-soft skills coach, og hvilket problem prøvde du å løse fra begynnelsen?
Taleangst var en del av mitt liv i lang tid. Jeg ble mobbet på skolen for uklar diksjon, og den erfaringen har virkelig satt seg fast hos meg. Senere, som IT-studentpraktikant, måtte jeg presentere for høyt nivå-kunder, og den samme frykten kom tilbake.
Deretter, i 2021, etter den mislykkede revolusjonen i Belarus, måtte jeg flytte til Europa over natten. Plutselig måtte jeg pitche til investorer på engelsk, et språk jeg knapt snakket. Det var skremmende, men det var ingen valg. Jeg tilbrakte timer hver dag med å praktisere min uttale med en meget tidlig versjon av det som senere skulle bli Vocal Image. Det tok meg sogar uker å lære å uttale “V”-lyden riktig, så jeg kunne si mitt eget selskapsnavn.
Vi startet med en app som i realiteten var som YouTube, men med en innbygd stemmeopptaker og en kommentarfunktion. Brukere kunne se videoer, øve på å gjenta linjene, og deretter lytte tilbake til sine egne opptak. Ved å se hvordan mennesker brukte det, innsett vi raskt at de desperat trengte tilbakemelding. Våre tidlige brukere viste oss at å bare forbruke innhold ikke var nok for å få reelle resultater; de trengte umiddelbar tilbakemelding. Vi prøvde å levere tilbakemelding gjennom menneskelige trenere, men den tilnærmingen var ikke skalerbar, og det er hvordan vi kom til å bruke AI.
Det var min personlige innsikt at det var lettere for meg å kunne praktisere mine første pitches med vår plattform i stedet for en person. Det var ingen press, ingen dom. Den friheten endret alt for meg. Når jeg løste mitt eget problem, innsett jeg hvor mange mennesker møter det samme problemet. Mer enn 200 millioner mennesker sliter med taleangst.
Før Vocal Image, drev du en dansestudio. Hvordan påvirkede din bakgrunn i bevegelse og uttrykk din tilnærming til kommunikasjon og vokal tillit?
Jeg var ikke danser; jeg bygde faktisk et bedriftssenterert rundt selvuttrykk og mennesker. Det var gjennom den arbeidet at jeg innsett at du kunne si mye om en persons indre tillit bare ved å se på hvordan de danser.
Bevegelse spiller også en enorm rolle i hvordan du uttrykker deg. Måten du beveger deg på, din kroppsholdning, din pust, alt er en del av kommunikasjonen. Det er der AI-trening blir kraftfull, da den kan hjelpe mennesker å trene over alle disse områdene på ett sted.
Før måtte selskaper hyre flere forskjellige trenere. En for offentlig tale, en for kroppsspråk, en for tillit. Nå, med AI, er alt sammenhengende. Du kan bygge det fullstendige bildet av kommunikasjon, ikke bare ett stykke av det.
I motsetning til de fleste AI-kommunikasjonsverktøy, bestemte du deg for ikke å bruke ChatGPT som grunnlag for din coach. Hva ledet til denne beslutningen?
Hypen rundt ChatGPT ble faktisk en stor vendingspunkt for oss. Når det ble mainstream, skapte det en massiv økning i AI-tillit, og vi kunne utnytte det til å få mennesker til å tro på vår egen teknologi.
Men her er det: vi ønsket absolutt ikke å bruke det som vårt grunnlag. Vårt mål fra starten var å bruke vår unike modell til å evaluere menneskers stemme- og talemønster. Vi bruker store språkmodeller som Gemini, Claude og ChatGPT og kunnskapsbasertips og triks fra kommunikasjonslitteratur i våre nåværende modeller, men de er ikke kjernen i vår tilbakemeldingsmekanisme. Den virkelige grunnlaget for vår tilbakemelding er menneskelig inndata.
Frykten for at AI-trening kan føles robotisk er reel. For å motvirke det, har vi fostret en samfunn innen Vocal Image hvor brukere kan umiddelbart koble til, dele det felles målet om å forbedre sin kommunikasjon, og støtte hverandres reise. Og dette samfunnet vokser og forbedrer vår AI kontinuerlig.
Kan du utdype hvordan trening av din AI eksklusivt på menneskestemmer forskjeller fra tradisjonelle LLM-baserte tilnærminger når det gjelder resultater og autentisitet?
Vi bruker store språkmodeller som en del av prosessen for evaluering og kontekst, men den virkelige grunnlaget for vårt system er dataene bak det. Vår kjerne-modell ble trent på vårt eget samfunn, bestående av mennesker som kom sammen spesifikt for å forbedre sin kommunikasjonsevne.
AI er bare like god som de mennesker det lærer fra. Vår egen datasett inkluderer nå over en million unike menneskestemmer, hver med tone, rytme og emosjon, som alle representerer den virkelige essensen av kommunikasjon.
Din datasett inkluderer over en million menneskestemmer. Hva var utfordringene du møtte i å kuratere og merke en så unik korpus?
Du kan ikke stole like mye på hvert enkelt datapunkt. Noen brukere vurderer nøye, andre klikker bare gjennom. Vi måtte designe et system som skiller mellom nøye tilbakemelding og støy. Over tid, lærte vi å gi mer vekt til brukere med konsekvent deltakelse og pålitelig dømmekraft, mens vi filtrerte ut tilfeldig inndata.
Det hardeste var operasjonelt, som involverte å bygge et vurderingssystem som belønner kvalitet over kvantitet. Det er der vårt samfunn ble uvurderlig. Disse er ikke tilfeldige internettbrukere, de er mennesker som virkelig prøver å forbedre sine myke ferdigheter og hjelpe andre å gjøre det samme. Alle vurderinger er anonyme, noe som hjelper til å holde tilbakemeldingen upartisk og autentisk.
Det samfunnsbaserte “Tinder-lignende” vurderingsmekanismen er fascinerende — hvordan former denne tilbakemeldingsløkken den kontinuerlige læringen av din AI?
Hver vurdering, på hvert språk, blir et lite stykke intelligens som finjusterer vår modell. Det er en levende tilbakemeldingsløkke. Jo flere mennesker som trener og vurderer, jo smartere blir systemet til å gjenkjenne nyanser i tale og emosjon, og lærer hvordan mennesker faktisk oppfatter tillit, varme eller autoritet på tvers av kulturer.
Hva var de viktigste lærdommene du lærte mens du utviklet en AI-modell sentrert rundt myke ferdigheter i stedet for tekniske kompetanser?
Hovedutfordringen var måling. Det finnes ingen universell målestokk for “pålitelig” eller “karismatisk”. Vi måtte skape vår egen.
Dette er hvor Lov om store tall kom inn. Hvis 100 000 mennesker er enige om at en bestemt stemme høres trygg eller empatisk ut, kan du begynne å stole på den kollektive oppfatningen. Over tid, lærte vi vår AI å forutsi subjektive kvaliteter, ting som ikke kan karakteriseres med en enkel riktig eller feil. Det var gjennombruddet: å lære å kvantifisere hva som alltid hadde blitt ansett som intangibelt.
Med 14 millioner dollar i årlig gjentakende inntekt og en fersk $3,6 millioner seed-runde, hva er dine hovedprioriteter for denne neste fasen av vekst — enten det er å forbedre AI-modellen, utvide brukerbasen eller dykke dyptere inn i samfunnsopplevelsen?
Vår misjon har alltid vært menneskesentrert. Vi hjelper mennesker å kommunisere med mer tillit og autentisitet.
Neste fase handler om å skalerer denne innvirkningen globalt. Vi utvider inn i nye språk og geografier, og utvikler nye myke ferdighetsmoduler som forhandling, aktivt lytting og veltalenhet.
Mange brukere sier at AI-trenere føles robotiske eller upersonlige. Hvordan sikrer du at Vocal Image leverer følelsesmessig resonante og kontekst-bevisste tilbakemeldinger?
Vi fokuserer på hyper-personalisering. Fra den første interaksjonen, lærer vi hvem du er, inkludert din aksent, alder, profesjonell kontekst og talemønster. Over tid har vi minne, og husker hvordan du har forbedret deg, hvor du sliter, og hvilken tilbakemelding som resonerer mest.
Det tillater AI å tilpasse seg dynamisk. Opplevelsen føles personlig fordi den er personlig. Den er formet helt av dine data og din reise, ikke av en generisk skript.
Ser fremover, hvordan ser du på at AI-myke ferdighets coaching utvikler seg når generativ og emosjonell AI fortsetter å modnes?
Menneskelig utvikling har alltid vært en blanding av natur og oppdragelse. Vitenskapen forteller oss at ledelse er omtrent halvparten medfødt, halvparten lært. Den lærede halvparten var tidligere forbeholdt toppledere som kunne betale dyre trenere. I lang tid har selskaper måttet betale mellom 7 000 og 25 000 dollar per år for å trene en enkelt leder. AI endrer dette.
Også, engasjement med menneskelige trenere ville nødvendiggjort å beholde mange separate trenere, mens en AI-trener kan erstatte alle sammen.
Nå, bruker vi en pipeline av forskjellige modeller for å analysere forskjellige aspekter av kommunikasjon, men fremtiden er et enkelt, samlet system som vurderer og guider deg holistisk. Denne teknologien vil demokratisere vekst. Du trenger ikke å være født karismatisk eller ha en stor bedriftsbudsjett for å mestre kommunikasjon. Du trenger bare nysgjerrighet og tilgang, og å skape miljøet for at det skal blomstre, er det som driver meg hver dag.
Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke Vocal Image.












