Interviews

Nick Lahoika, Co-Founder og CEO af Vocal Image – Interview Serie

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nick Lahoika er co-founder og CEO af Vocal Image, en coaching-startup, der hjælper mennesker med at udvikle bløde færdigheder. En serial-entrepreneur med mere end 10 års erfaring i IT og forretningsudvikling, Nick havde succesfuldt afsluttet to venture, før han oprettede Vocal Image. Nicks rejse er dybt personlig; han blev mobbet for uklar udtale på skolen, hvilket inspirerede hans mission til at hjælpe mennesker med at kommunikere bedre.

Efter at være blevet tvunget til at flygte fra sit hjemland efter revolutionen i 2020, ankom Nick til Estland med minimalt kendskab til engelsk og brugte sin egen app til at træne sin stemme, sikrede sin første runde af finansiering inden for kun seks måneder. Vinderen af AWS AI-udfordringen og Meta x Hugging Face European AI-startup-program, Vocal Image har nyligt samlet 3,6 millioner dollars i seed-runde ledet af Educapital (Frankrig) og er vokset til over 14 millioner dollars i årlig omsætning.

I grundlagde Vocal Image i 2021. Hvad inspirerede dig til at opbygge en AI-blød færdighedscoach, og hvilket problem forsøgte du at løse fra starten?

Taleangst var en del af mit liv i lang tid. Jeg blev mobbet i skolen for uklar udtale, og den oplevelse blev virkelig siddende hos mig. Senere, som IT-studentpraktikant, måtte jeg præsentere for højtstående kunder, og den samme frygt kom tilbage.

Dengang i 2021, efter den mislykkede revolution i Hviderusland, måtte jeg flytte til Europa over nat. Pludselig måtte jeg præsentere for investorer på engelsk, et sprog jeg knap kunne tale. Det var skræmmende, men der var ingen valg. Jeg tilbragte timer hver dag med at træne min udtale med en meget tidlig version af, hvad der senere blev Vocal Image. Det tog endda mig uger at lære at udtale “V”-lyden korrekt, så jeg kunne sige mit eget firma navn.

Vi startede med en app, der i virkeligheden var som YouTube, men med en indbygget stemmeoptager og en kommentarfunktion. Brugere kunne se videoer, øve sig i at gentage linjerne og derefter lytte til deres egne optagelser. Ved at se, hvordan folk brugte det, indså vi hurtigt, at de desperat behøvede feedback. Vore tidlige brugere viste os, at det blot at forbruge indhold ikke var nok til at få virkelige resultater; de havde brug for øjeblikkelig feedback. Vi prøvede at levere feedback gennem menneskelige trænere, men den tilgang var ikke skalérbar, og det er, hvordan vi kom til at bruge AI.

Det var min personlige indsigt, at det var lettere for mig, at jeg kunne øve mine første præsentationer med vores platform i stedet for en person. Der var ingen pres, ingen dom. Den frihed ændrede alt for mig. Når jeg havde løst mit eget problem, indså jeg, hvor mange mennesker stod over for det samme problem. Over 200 millioner mennesker kæmper med taleangst.

Før Vocal Image, drev du en dansestudio. Hvordan påvirkede din baggrund i bevægelse og udtryk din tilgang til kommunikation og vokal tillid?

Jeg var ikke danser; jeg byggede faktisk en forretning centreret omkring selvudtryk og mennesker. Det var gennem det arbejde, at jeg indså, at man kunne sige meget om en persons indre tillid ved at se på, hvordan de dansede.

Bevægelse spiller også en enorm rolle i, hvordan du udtrykker dig selv. Måden, du bevæger dig på, din kropsholdning, din åndedræt, det er alle en del af kommunikationen. Det er her, AI-coaching bliver kraftfuld, da den kan hjælpe mennesker med at træne på alle disse områder på én gang.

Førhen havde virksomhederne brug for at hyre flere forskellige trænere. En til offentlig tale, en til kropssprog, en til tillid. Nu, med AI, er det alle sammenhængende. Du kan bygge det fulde billede af kommunikation, ikke kun et enkelt stykke af det.

I modsætning til de fleste AI-kommunikationsværktøjer, besluttede du ikke at bruge ChatGPT som grundlag for din træner. Hvad førte til den beslutning?

Hypen omkring ChatGPT blev faktisk en stor vendingspunkt for os. Da det blev mainstream, skabte det en massiv stigning i AI-tillid, og vi kunne udnytte det til at få folk til at tro på vores egen teknologi.

Men her er sagen: vi ønskede absolut ikke at bruge det som vores grundlag. Vores mål fra starten var at bruge vores unikke model til at evaluere menneskers stemme og tale mønstre. Vi bruger store sprogmodeller som Gemini, Claude og ChatGPT og viden, tips og tricks fra kommunikationslitteratur i vores nuværende modeller, men de er ikke kernen i vores feedback-mekanisme. Den virkelige grundlag for vores feedback er menneskelig input.

Frygten for, at AI-coaching føles robotisk, er reel. For at modvirke det opfostrede vi en fællesskab inden for Vocal Image, hvor brugere kan umiddelbart forbinde sig, dele det fælles mål om at forbedre deres kommunikation og støtte hinandens rejse. Og denne fællesskab vokser og forbedrer vores AI konstant.

Kan du uddybe, hvordan træning af din AI udelukkende på menneskestemmer adskiller sig fra traditionelle LLM-baserede tilgange i forhold til resultater og ægthed?

Vi bruger store sprogmodeller som en del af processen til evaluering og kontekst, men den virkelige grundlag for vores system er data bag det. Vores kerne-model blev trænet på vores egen fællesskab, bestående af mennesker, der kom sammen specifikt for at forbedre deres kommunikationsfærdigheder.

AI er kun så god, som de mennesker den lærer af. Vores proprietære dataset indeholder nu over en million unikke menneskestemmer, hver med tone, rytme og følelse, som alle repræsenterer den virkelige essens af kommunikation.

Dit dataset indeholder over en million menneskestemmer. Hvilke udfordringer stod du over for i at kuraterer og mærke sådant et unikt korpus?

Du kan ikke stole lige meget på hvert enkelt data punkt. Nogle brugere vurderer omhyggeligt, andre klikker bare igennem. Vi måtte designe et system, der kan skelne mellem omhyggelig feedback og støj. Over tid lærte vi at give mere vægt til brugere med konsekvent deltagelse og pålidelig dømmekraft, mens vi filtrerede ud af tilfældig input.

Det sværeste var operationelt, som indebar opbygning af et vurderingssystem, der belønner kvalitet over kvantitet. Det er her, vores fællesskab blev uvurderligt. Disse er ikke tilfældige internetbrugere, de er mennesker, der virkelig forsøger at forbedre deres bløde færdigheder og hjælpe andre med at gøre det samme. Alle vurderinger er anonyme, hvilket hjælper med at holde feedbacket upartisk og ægte.

Den fællesskabsdrevne “Tinder-lignende” vurderingsmekanisme er fascinerende — hvordan former denne feedback-løkke den fortsatte læring af din AI?

Hver vurdering, på hvert sprog, bliver et lille stykke intelligens, der forfiner vores model. Det er en levende feedback-løkke. Jo mere mennesker træner og vurderer, jo smartere bliver systemet til at genkende nuancer i tale og følelse, og lære, hvordan mennesker faktisk opfatter tillid, varme eller autoritet på tværs af kulturer.

Hvad var de vigtigste lærdomme, mens du udviklede en AI-model centreret om bløde færdigheder snarere end tekniske kompetencer?

Den største udfordring var måling. Der er ingen universel målestok for “tillidvækkende” eller “karismatisk”. Vi måtte oprette vores egen.

Det er her, Lov om store tal kom ind. Hvis 100.000 mennesker er enige om, at en bestemt stemme lyder tillidvækkende eller empatisk, kan du begynde at stole på den kollektive perception. Over tid lærte vi vores AI at forudsige subjektive kvaliteter, ting, der ikke kan karakteriseres med en simpel rigtig eller forkert. Det var gennembruddet: at lære at kvantificere, hvad der altid havde været betragtet som intangibelt.

Med 14 millioner dollars i årlig omsætning og en frisk $3,6 million seed-runde, hvad er dine hovedprioriteter for denne næste fase af vækst — enten det er at avancere AI-modellen, udvide brugerbasen eller dykke dybere i fællesskabsoplevelsen?

Vores mission har altid været menneskecentreret. Vi hjælper mennesker med at kommunikere med mere tillid og ægthed.

Den næste fase handler om at skalaere denne indvirkning globalt. Vi udvider til nye sprog og geografier og udvikler nye bløde færdighedsmoduler som forhandling, aktiv lytning og eloquence.

Mange brugere siger, at AI-trænere føles robotiske eller upersonlige. Hvordan sikrer du, at Vocal Image leverer følelsesmæssigt resonante og kontekstbevidste feedback?

Vi fokuserer på hyper-personalisering. Fra den første interaktion lærer vi, hvem du er, herunder din accent, alder, professionel kontekst og tale mønstre. Over tid har vi hukommelse, husker, hvordan du har forbedret dig, hvor du kæmper, og hvilket feedback resonerer mest.

Det tillader AI at tilpasse sig dynamisk. Oplevelsen føles personlig, fordi den er personlig. Den er formet helt af dine data og din rejse, ikke af en generisk skript.

Set fremad, hvordan ser du AI-bløde færdighedscoaching udvikle sig, når generativ og emotionel AI fortsætter med at modnes?

Menneskelig udvikling har altid været en blanding af natur og næring. Videnskaben siger os, at lederskab er omtrent halvt medfødt, halvt lært. Den lærede halvdel var tidligere forbeholdt chefer, der kunne betale dyre trænere. I lang tid har virksomhederne måttet betale mellem 7.000 og 25.000 dollars om året for at træne en enkelt leder. AI ændrer det.

Også, at engagere sig med menneskelige trænere ville nødvendiggøre at hyre mange separate trænere, hvorimod en AI-træner kan erstatte dem alle.

Lige nu bruger vi en række af forskellige modeller til at analysere forskellige aspekter af kommunikation, men fremtiden er et enkelt, samlet system, der vurderer og guider dig holistisk. Denne teknologi vil demokratisere vækst. Du behøver ikke at være født karismatisk eller have en stor virksomhedsbudget for at mestre kommunikation. Du behøver kun nysgerrighed og adgang, og det at skabe miljøet for, at det kan blomstre, er det, der driver mig hver dag.

Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge Vocal Image.

Unite.AI

Nick Lahoika, Co-Founder og CEO af Vocal Image – Interview Serie

You may like