인터뷰
Nick Lahoika, Vocal Image의 공동 창립자 및 CEO – 인터뷰 시리즈

Nick Lahoika는 Vocal Image의 공동 창립자이자 CEO입니다. Vocal Image는 사람들이 소프트 스킬을 개발하도록 도와주는 코칭 스타트업입니다. 10년 이상의 IT 및 비즈니스 개발 경험을 가진 연쇄 창업가인 Nick는 Vocal Image를 창업하기 전에 두 개의 벤처를 성공적으로 매각했습니다. Nick의 여정은 매우 개인적입니다. 그는 학교에서 발음이 불분명하다는 이유로 괴롭힘을 받았는데, 이것이 사람들이 더 잘 소통하도록 도와주는 그의 임무를 영감했습니다.
2020년 혁명 이후 그의 고향을 떠나야 했던 Nick는 영어를 거의 구사하지 못하는 채 에스토니아에 도착했습니다. 그는 자신의 앱을 사용하여 목소리를 훈련시키고, 6개월 이내에 첫 번째 자금 조달을 확보했습니다. AWS AI 챌린지와 Meta x Hugging Face 유럽 AI 스타트업 프로그램의 우승자인 Vocal Image는 최근 Educapital(프랑스)이 주도하는 360만 달러의 시드 라운드를 조달하고, 1,400만 달러의 연간 재생 수익을 달성했습니다.
당신은 2021년에 Vocal Image를 설립했습니다. AI 소프트 스킬 코치를 구축하도록 무엇이 영감을 주었나요? 그리고 처음에 당신이 해결하려고 했던 문제는 무엇입니까?
말하기에 대한 불안감은 오랫동안 내 삶의 일부였습니다. 나는 학교에서 발음이 불분명하다는 이유로 괴롭힘을 받았고, 그 경험은 정말로 내게 남아 있습니다. 나중에 IT 학생 인턴으로서, 나는 고위 클라이언트에게 발표해야 했고, 같은 страх이 다시 돌아왔습니다.
그런 다음 2021년에 벨라루스에서 혁명이 실패한 후, 나는 밤새 유럽으로 이사해야 했습니다.突然 나는 영어로 투자자에게 피칭해야 했는데, 그것은 거의 구사하지 못하는 언어였습니다. 그것은 두려웠지만, 선택의 여지가 없었습니다. 나는 거의 모든 시간을 보낸 매우 초기 버전의 Vocal Image를 사용하여 발음을 연습했습니다. даже “V” 소리를 제대로 발음하는 데 몇 주가 걸렸습니다. 그래서 나는 자신의 회사 이름을 말할 수 있었습니다.
우리는 기본적으로 유튜브와 같은 앱으로 시작했지만, 내장된 음성 레코더와 댓글 기능이 있었습니다. 사용자는 비디오를 시청하고, 줄을 반복하는 것을 연습하고, 그런 다음 자신의 녹음을 들어볼 수 있었습니다. 사람들이 그것을 사용하는 것을 지켜보면서, 우리는 즉시 피드백이 필요하다는 것을 빠르게 깨달았습니다. 초기 사용자들은 단순히 콘텐츠를 소비하는 것이 실제 결과를 얻기에 충분하지 않다는 것을 보여주었습니다. 즉각적인 피드백이 필요했습니다. 우리는 인간 코치를 통해 피드백을 제공하려고 시도했지만, 그 접근 방식은 확장할 수 없다는 것을 알게 되었습니다. 그것이 우리가 AI를 사용하게 된 이유입니다.
내 개인적인 통찰력은 내가 플랫폼으로서 사람보다 더 쉽게 첫 번째 피칭을 연습할 수 있다는 것이었습니다. 압박이나 판단이 없었습니다. 그 자유가 모든 것을 바꿨습니다. 내가 자신의 문제를 해결한 후, 나는 같은 문제를 겪는 사람들이 얼마나 많은지 깨달았습니다. 2억 명이 넘는 사람들이 말하기에 대한 불안감을 겪고 있습니다.
Vocal Image 이전에, 당신은 댄스 스튜디오를 운영했습니다. 움직임과 표현에 대한 그 배경이 어떻게 소통과 보컬 컨피던스에 대한 접근 방식을影响했나요?
나는 댄서가 아니었습니다. 실제로 나는 사람들과 자기 표현에 중점을 둔 비즈니스를 구축했습니다. 그것은 통해 나는 사람이 춤을 추는 것을 보면서, 사람의 내면적인 자신감을 많이 알 수 있다는 것을 깨달았습니다.
움직임도 표현하는 데 큰 역할을 합니다. 당신의 움직임, 자세, 호흡, 모두가 소통의 일부입니다. 그것이 AI 코칭이 강력해지는 곳입니다. 그것은 사람들이 모든 영역에서 훈련할 수 있도록 도와줄 수 있습니다.
이전에는 회사들이 여러 다른 코치를 고용해야 했습니다. 퍼블릭 스피킹을 위한 코치, 바디 랭귀지를 위한 코치, 컨피던스를 위한 코치. 이제, AI를 사용하면 모든 것이 연결되어 있습니다. 당신은 소통의 전체 그림을 구축할 수 있습니다. 단지 한 부분만이 아닙니다.
대부분의 AI 커뮤니케이션 툴과 달리, ChatGPT를 코치의 기초로 사용하지 않기로 결정했습니다. 그 결정으로 인해 어떤 것이 있나요?
ChatGPT에 대한 호재는 실제로 우리에게 큰 전환점이 되었습니다. 그것이 주류가 되면서, 그것은 AI에 대한 신뢰의巨대한 스파이크를 만들었고, 우리는 그것을 이용하여 사람들이 우리의 기술을 믿도록 할 수 있었습니다.
하지만 여기 중요한 점이 있습니다: 우리는 그것을 우리의 기초로 사용하고 싶지 않았습니다. 우리의 목표는 처음부터 우리의 고유한 모델을 사용하여 사람들의 목소리와 발화 패턴을 평가하는 것이었습니다. 우리는 Gemini, Claude, ChatGPT와 같은 대규모 언어 모델과 커뮤니케이션 문헌의 팁과 트릭을 사용하여 현재 모델을 구축하고 있습니다. 그러나 그것들이 우리의 피드백 메커니즘의 핵심은 아닙니다. 우리의 피드백의 실제 기초는 인간의 입력입니다.
AI 코칭이 로봇처럼 느껴질 수 있다는 두려움은 실제입니다. 그것을 대처하기 위해, 우리는 Vocal Image 내에서 사용자들이 즉시 연결하고, 소통을 개선하는 공통의 목표를 공유하고, 서로의 여정을 지원할 수 있는 커뮤니티를 조성했습니다. 그리고 이 커뮤니티는 끊임없이 성장하고 우리의 AI를 개선합니다.
인간 목소리만으로 AI를 훈련하는 것이 전통적인 LLM 기반 접근 방식과 어떻게 다른지에 대해 자세히 설명해 주시겠습니까? 결과와 진실성의 관점에서?
우리는 평가와 컨텍스트를 위해 대규모 언어 모델을 일부로 사용하지만, 우리 시스템의 실제 기초는 데이터입니다. 우리의 핵심 모델은 소통 스킬을 개선하기 위해 모인 사람들로 구성된 우리의 커뮤니티에서 훈련되었습니다.
AI는 학습하는 인간만큼 좋습니다. 우리의 고유한 데이터 세트에는 현재 100만 개 이상의 고유한 인간 목소리가 포함되어 있으며, 각 목소리는 톤, 리듬, 감정 등이 포함된 실제 소통의 본질을 나타냅니다.
당신의 데이터 세트에는 100만 개 이상의 인간 목소리가 포함되어 있습니다. 그런 독특한 코퍼스를 수집하고 레이블링하는 데 어떤 도전을 겪었나요?
모든 데이터 포인트에 동등하게 의존할 수 없습니다. 일부 사용자는 주의해서 평가하지만, 다른 사용자는 그냥 클릭합니다. 우리는 신중한 피드백과 노이즈를 구별하는 시스템을 설계해야 했습니다. 시간이 지나면서, 우리는 일관된 참여와 신뢰할 수 있는 판단을 가진 사용자에게 더 많은 가중치를 주는 법을 배웠고, 무작위적인 입력을 필터링했습니다.
가장 어려운 부분은 운영적인 측면이었습니다.それは 품질을 양보다 우선하는 평가 생태계를 구축하는 것이었습니다. 그것이 우리의 커뮤니티가 귀중해진 곳입니다. 이들은 랜덤한 인터넷 사용자가 아닙니다. 실제로 소프트 스킬을 개선하려고 노력하고, 다른 사람들도 그렇게 하도록 도와주는 사람들입니다. 모든 평가가 익명으로 진행되므로 피드백은 편향되지 않고 진실합니다.
커뮤니티 주도형 “Tinder-like” 평가 메커니즘은 매혹적입니다. 이 피드백 루프가 어떻게 AI의 지속적인 학습을 형성합니까?
모든 평가, 모든 언어에서 작은 지능의 조각이 되어 우리의 모델을 세분화합니다. 그것은 살아있는 피드백 루프입니다. 더 많은 사람들이 훈련하고 평가할수록, 시스템은 더 지능적으로 됩니다. 그것은 실제로 사람們이 어떻게 자신감, 따뜻함, 권위 등을 인식하는지 배우고, 그것을 문화를 통해 학습합니다.
소프트 스킬보다는 기술적 능력에 중점을 둔 AI 모델을 개발하면서 어떤 주요 교훈을 얻었나요?
주된 도전은 측정입니다. “신뢰할 수 있음” 또는 “카리스마”에 대한 보편적인 지표는 없습니다. 우리는 우리自己的 것을 만들어야 했습니다.
이것이 대수 법칙이 도입된 곳입니다. 10만 명의 사람들이 특정 목소리가 자신감 있거나 공감적이라고 생각한다면, 당신은 그 집단적 인식을 신뢰할 수 있습니다. 시간이 지나면서, 우리는 우리의 AI가 주관적인 특성을 예측하도록 가르쳤습니다. 그것은 단순한 옳고 그름으로 평가할 수 없는 것들입니다. 그것이 돌파구였습니다: 우리가 언제나 무형적이라고 생각했던 것을 양적으로 측정하는 법을 배우는 것이었습니다.
1,400만 달러의 연간 재생 수익과 신선한 $360만 시드 라운드와 함께, 성장의 다음 단계에서 주요 우선 순위는 무엇인가요? 그것은 AI 모델을 발전시키는 것, 사용자 기반을 확장하는 것, 또는 커뮤니티 경험을 깊게 하는 것일 수 있습니다.
우리의 임무는 항상 인간 중심적이었습니다. 우리는 사람들이 더 자신감 있고 진정성 있게 소통하도록 도와줍니다.
다음 단계는 그 영향을全球적으로 확대하는 것입니다. 우리는 새로운 언어와 지리적 지역으로 확장하고, 협상, 적극적인 듣기, 유창함과 같은 새로운 소프트 스킬 모듈을 개발하고 있습니다.
많은 사용자들은 AI 코치가 로봇처럼 느껴지거나 개인적이지 않다고 말합니다. Vocal Image가 감정적으로 공鳴하고 컨텍스트에 맞는 피드백을 제공하는 것을 어떻게 보장합니까?
우리는 초 개인화를 중점으로 합니다. 첫 번째 상호 작용부터, 우리는 당신이 누구인지, 당신의 억양, 나이, 전문적인 컨텍스트, 발화 패턴 등을 배우고 기억합니다. 시간이 지나면서, 우리는 당신이 어떻게 개선되었는지, 어디에서 어려움을 겪는지, 어떤 피드백이 가장 공鳴하는지 기억합니다.
그것은 AI를 동적으로 적응시킵니다. 경험은 개인적인 것이기 때문에 개인적입니다. 그것은 제네릭한 스크립트가 아니라, 당신의 데이터와 당신의 여정에 의해 완전히 형성됩니다.
앞으로, 생성적 AI와 감정 AI가 계속 성숙함에 따라, AI 소프트 스킬 코칭이 어떻게 발전할 것으로 보십니까?
인간의 발전은 항상 자연과 양육의 혼합입니다. 과학은 리더십이 약 절반은 선천적이고, 절반은 후천적이라고 말합니다. 후천적인 부분은 이전에는 비싼 코치를 고용할 수 있는 경영진에게만 예약되어 있었습니다. 오랫동안, 회사들은 한 명의 리더를 코칭하기 위해 1년간 7,000달러에서 25,000달러를 지불해야 했습니다. AI는 그것을 변경합니다.
또한, 인간 트레이너와 상호 작용하는 것은 여러 개별 코치를 고용해야 하는 것을 의미하지만, AI 코치는 모두를 대체할 수 있습니다.
현재, 우리는 다른 측면의 소통을 분석하기 위해 다양한 모델의 파이프라인을 사용하고 있지만, 미래는 전체적으로 사용자를 평가하고 지導하는 단일 통합 시스템입니다. 이 기술은 성장을 민주화할 것입니다. 카리스마적이거나 큰 기업 예산을 갖고 있지 않아도 소통을 마스터할 수 있습니다. 당신에게 필요한 것은 호기심과 접근뿐입니다. 그리고那种 환경을 조성하는 것이 매일 나를 움직이는 것입니다.
멋진 인터뷰 감사합니다. 더 많은 정보를 배우고 싶은 독자들은 Vocal Image를 방문해야 합니다.












