Interviews

Nick Lahoika, Co-Founder und CEO von Vocal Image – Interview-Serie

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nick Lahoika ist der Co-Founder und CEO von Vocal Image, einem Coaching-Startup, das Menschen hilft, Soft Skills zu entwickeln. Als Serienunternehmer mit mehr als 10 Jahren Erfahrung in IT und Geschäftsentwicklung hat Nick zwei Unternehmen erfolgreich verlassen, bevor er Vocal Image gründete. Nicks Reise ist tief persönlich; er wurde in der Schule wegen unklarer Aussprache gemobbt, was ihn zu seinem Ziel inspirierte, Menschen zu helfen, besser zu kommunizieren.

Nachdem er nach der Revolution 2020 gezwungen war, sein Heimatland zu verlassen, kam Nick nach Estland mit minimalen Englischkenntnissen und nutzte seine eigene App, um seine Stimme zu trainieren, und sicherte sich innerhalb von sechs Monaten seine erste Finanzierungsrunde. Der Gewinner des AWS AI Challenge und des Meta x Hugging Face European AI Startup Program, Vocal Image, hat kürzlich eine Finanzierungsrunde von 3,6 Millionen Dollar von Educapital (Frankreich) erhalten und ist auf über 14 Millionen Dollar Umsatz pro Jahr gewachsen.

Sie haben Vocal Image 2021 gegründet. Was hat Sie dazu inspiriert, einen AI-Soft-Skills-Coach aufzubauen, und welches Problem wollten Sie zu Beginn lösen?

Sprechangst war ein Teil meines Lebens für eine lange Zeit. Ich wurde in der Schule wegen unklarer Aussprache gemobbt, und diese Erfahrung hat mich wirklich geprägt. Später, als IT-Student und Praktikant, musste ich vor hochrangigen Kunden präsentieren, und die gleiche Angst kam zurück.

Dann, 2021, nach der gescheiterten Revolution in Belarus, musste ich über Nacht nach Europa umsiedeln. Plötzlich musste ich vor Investoren in Englisch sprechen, einer Sprache, die ich kaum sprach. Es war erschreckend, aber es gab keine Wahl. Ich verbrachte jeden Tag Stunden damit, meine Aussprache mit einer sehr frühen Version dessen zu üben, was später zu Vocal Image werden würde. Es dauerte sogar Wochen, nur um zu lernen, wie man den “V”-Laut richtig ausspricht, damit ich meinen eigenen Firmennamen sagen konnte.

Wir begannen mit einer App, die im Wesentlichen wie YouTube war, aber mit einem integrierten Sprachaufnahmegerät und einer Kommentarfunktion. Benutzer konnten Videos ansehen, die Zeilen wiederholen und dann ihre eigenen Aufnahmen anhören. Beim Beobachten, wie die Leute es nutzten, erkannten wir schnell, dass sie verzweifelt nach Feedback suchten. Unsere frühen Benutzer zeigten uns, dass das bloße Konsumieren von Inhalten nicht ausreichte, um echte Ergebnisse zu erzielen; sie benötigten sofortiges Feedback. Wir versuchten, Feedback durch menschliche Coaches zu liefern, aber dieser Ansatz war nicht skalierbar, was uns dazu brachte, AI zu verwenden.

Es war meine persönliche Erkenntnis, dass es für mich einfacher war, meine ersten Präsentationen mit unserer Plattform zu üben, anstatt mit einer Person. Es gab keinen Druck, keine Beurteilung. Diese Freiheit änderte alles für mich. Sobald ich mein eigenes Problem gelöst hatte, erkannte ich, wie viele Menschen mit dem gleichen Problem konfrontiert sind. Mehr als 200 Millionen Menschen leiden unter Sprechangst.

Bevor Vocal Image, leiteten Sie ein Tanzstudio. Wie hat Ihre Erfahrung im Bereich Bewegung und Ausdruck Ihre Herangehensweise an Kommunikation und vocale Sicherheit beeinflusst?

Ich war kein Tänzer; ich baute tatsächlich ein Geschäft auf, das sich auf Selbstausdruck und Menschen konzentrierte. Es war durch diese Arbeit, dass ich erkannte, dass man viel über die innere Sicherheit einer Person erkennen kann, indem man sie tanzen sieht.

Bewegung spielt auch eine enorme Rolle bei der Art und Weise, wie man sich ausdrückt. Die Art, wie man sich bewegt, die Körperhaltung, das Atmen, all dies ist Teil der Kommunikation. Das ist der Punkt, an dem AI-Coaching powerful wird, da es Menschen helfen kann, in all diesen Bereichen an einem Ort zu trainieren.

Früher mussten Unternehmen mehrere verschiedene Coaches einstellen. Einen für öffentliches Sprechen, einen für Körpersprache, einen für Selbstvertrauen. Jetzt, mit AI, ist alles verbunden. Man kann das gesamte Bild der Kommunikation aufbauen, nicht nur ein Teil davon.

Im Gegensatz zu den meisten AI-Kommunikationswerkzeugen haben Sie sich entschieden, ChatGPT nicht als Grundlage für Ihren Coach zu verwenden. Was führte zu dieser Entscheidung?

Die Hype um ChatGPT wurde tatsächlich zu einem großen Wendepunkt für uns. Als es mainstream wurde, schuf es einen massiven Anstieg des Vertrauens in AI, und wir konnten davon profitieren, um Menschen dazu zu bringen, an unsere eigene Technologie zu glauben.

Aber hier ist das Ding: Wir wollten es definitiv nicht als Grundlage verwenden. Unser Ziel von Anfang an war es, unser eigenes Modell zu verwenden, um die Stimme und die Sprechmuster der Menschen zu bewerten. Wir verwenden große Sprachmodelle wie Gemini, Claude und ChatGPT und Wissensbasen, Tipps und Tricks aus der Kommunikationsliteratur in unseren aktuellen Modellen, aber sie sind nicht der Kern unseres Feedback-Mechanismus. Die wahre Grundlage unseres Feedbacks ist menschliche Eingabe.

Die Angst, dass AI-Coaching robotisch oder unpersönlich wirkt, ist real. Um dem entgegenzuwirken, haben wir innerhalb von Vocal Image eine Gemeinschaft gefördert, in der Benutzer sofort miteinander in Verbindung treten, ein gemeinsames Ziel der Verbesserung ihrer Kommunikation teilen und sich gegenseitig auf ihrer Reise unterstützen können. Und diese Gemeinschaft wächst und verbessert ständig unsere AI.

Können Sie erläutern, wie das Training Ihres AI ausschließlich auf menschlichen Stimmen im Vergleich zu herkömmlichen LLM-basierten Ansätzen in Bezug auf Ergebnisse und Authentizität unterscheidet?

Wir verwenden große Sprachmodelle als Teil des Prozesses für die Bewertung und den Kontext, aber die wahre Grundlage unseres Systems ist die Datenmenge dahinter. Unser Kernmodell wurde auf unserer eigenen Gemeinschaft trainiert, die aus Menschen besteht, die sich zusammengetan haben, um ihre Kommunikationsfähigkeiten zu verbessern.

AI ist nur so gut wie die Menschen, von denen es lernt. Unser proprietäres Dataset umfasst nun über eine Million einzigartige menschliche Stimmen, jede mit Ton, Rhythmus und Emotion, die alle die wahre Essenz der Kommunikation darstellen.

Ihre Datenbank umfasst über eine Million menschliche Stimmen. Welche Herausforderungen hatten Sie bei der Kuratierung und Markierung eines solch einzigartigen Korpus?

Man kann sich nicht gleichmäßig auf jeden Datenpunkt verlassen. Einige Benutzer bewerten sorgfältig, andere klicken einfach durch. Wir mussten ein System entwerfen, das sorgfältiges Feedback von Rauschen unterscheidet. Im Laufe der Zeit lernten wir, Benutzern mit konsistenter Teilnahme und zuverlässigem Urteil mehr Gewicht zu geben, während wir zufällige Eingaben filterten.

Der schwierigste Teil war operativ, was das Aufbauen eines Bewertungssystems beinhaltete, das Qualität über Quantität belohnt. Das ist der Punkt, an dem unsere Gemeinschaft unschätzbar wurde. Diese sind keine zufälligen Internetnutzer, sondern Menschen, die wirklich versuchen, ihre Soft Skills zu verbessern und anderen dabei zu helfen. Alle Bewertungen sind anonym, was hilft, das Feedback unvoreingenommen und authentisch zu halten.

Der community-getriebene “Tinder-ähnliche” Bewertungsmechanismus ist faszinierend — wie formt diese Feedback-Schleife das kontinuierliche Lernen Ihrer AI?

Jede Bewertung, in jeder Sprache, wird zu einem kleinen Teil des Intellekts, der unser Modell verfeinert. Es ist eine lebendige Feedback-Schleife. Je mehr Menschen trainieren und bewerten, desto intelligenter wird das System darin, Nuancen der Sprache und Emotionen zu erkennen, zu lernen, wie Menschen tatsächlich Vertrauen, Wärme oder Autorität über Kulturen hinweg wahrnehmen.

Was waren die wichtigsten Lektionen, die Sie beim Entwickeln eines AI-Modells gelernt haben, das auf Soft Skills und nicht auf technische Fähigkeiten ausgerichtet ist?

Die Hauptaufgabe bestand darin, die Messung zu entwickeln. Es gibt kein universelles Maß für “vertrauenswürdig” oder “charismatisch”. Wir mussten unser eigenes erstellen.

Das ist der Punkt, an dem das Gesetz der großen Zahlen kam. Wenn 100.000 Menschen übereinstimmen, dass eine bestimmte Stimme selbstsicher oder empathisch klingt, kann man diesem kollektiven Eindruck beginnen zu vertrauen. Im Laufe der Zeit haben wir unsere AI gelehrt, subjektive Qualitäten vorherzusagen, Dinge, die nicht mit einem einfachen Richtig oder Falsch bewertet werden können. Das war der Durchbruch: zu lernen, was immer als ungreifbar galt, zu quantifizieren.

Mit 14 Millionen Dollar Umsatz pro Jahr und einer frischen $3,6-Millionen-Seed-Runde, was sind Ihre Hauptprioritäten für diese nächste Wachstumsphase — sei es das Vorrücken des AI-Modells, das Erweitern der Benutzerbasis oder das Vertiefen der Community-Erfahrung?

Unsere Mission war immer menschenzentriert. Wir helfen Menschen, mit mehr Selbstvertrauen und Authentizität zu kommunizieren.

Die nächste Phase besteht darin, diese Wirkung global zu skalieren. Wir erweitern uns in neue Sprachen und geografische Regionen und entwickeln neue Soft-Skill-Module wie Verhandlung, aktives Zuhören und Eloquenz.

Viele Benutzer sagen, dass AI-Coaches robotisch oder unpersönlich wirken. Wie stellen Sie sicher, dass Vocal Image emotional resonantes und kontextbewusstes Feedback liefert?

Wir konzentrieren uns auf Hyper-Personalisierung. Ab der ersten Interaktion lernen wir, wer Sie sind, einschließlich Ihres Akzents, Ihres Alters, Ihres beruflichen Kontexts und Ihrer Sprechmuster. Im Laufe der Zeit haben wir ein Gedächtnis, das sich daran erinnert, wie Sie sich verbessert haben, wo Sie Schwierigkeiten haben und welche Rückmeldungen am meisten Resonanz finden.

Das ermöglicht es der AI, sich dynamisch anzupassen. Die Erfahrung fühlt sich persönlich an, weil sie es ist. Sie wird vollständig von Ihren Daten und Ihrer Reise geformt, nicht von einem generischen Skript.

Wenn man in die Zukunft blickt, wie sehen Sie die Entwicklung von AI-Soft-Skills-Coaching, wenn generative und emotionale AI weiterreifen?

Die menschliche Entwicklung war immer eine Mischung aus Natur und Erziehung. Die Wissenschaft sagt uns, dass Führung etwa zur Hälfte angeboren und zur Hälfte erlernt ist. Der erlernte Teil war früher den Exekutiven vorbehalten, die sich teure Coaches leisten konnten. Für eine lange Zeit mussten Unternehmen zwischen 7.000 und 25.000 Dollar pro Jahr für die Schulung eines einzelnen Führers ausgeben. AI ändert das.

Außerdem würde die Interaktion mit menschlichen Trainern die Beibehaltung vieler separater Coaches erfordern, während ein AI-Coach alle ersetzen kann.

Im Moment verwenden wir eine Pipeline verschiedener Modelle, um verschiedene Aspekte der Kommunikation zu analysieren, aber die Zukunft ist ein einziges, vereintes System, das Sie holistisch bewertet und leitet. Diese Technologie wird das Wachstum demokratisieren. Sie werden nicht charismatisch geboren oder ein großes Firmenbudget benötigen, um die Kommunikation zu meistern. Sie werden nur Neugier und Zugang benötigen, und die Schaffung einer Umgebung, in der dies gedeihen kann, treibt mich jeden Tag an.

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Vocal Image besuchen.

Unite.AI

Nick Lahoika, Co-Founder und CEO von Vocal Image – Interview-Serie

You may like