Phỏng vấn
Nick Lahoika, Đồng sáng lập và CEO của Vocal Image – Series phỏng vấn

Nick Lahoika là đồng sáng lập và CEO của Vocal Image, một công ty khởi nghiệp về huấn luyện giúp mọi người phát triển kỹ năng mềm. Là một doanh nhân连 tiếp với hơn 10 năm kinh nghiệm trong lĩnh vực CNTT và phát triển kinh doanh, Nick đã thành công trong việc rời bỏ hai công ty trước khi tạo ra Vocal Image. Hành trình của Nick rất cá nhân; anh đã bị bắt nạt vì cách phát âm không rõ ràng ở trường học, điều này đã truyền cảm hứng cho anh giúp mọi người giao tiếp tốt hơn.
Sau khi bị buộc phải rời khỏi quê hương sau cuộc cách mạng năm 2020, Nick đến Estonia với khả năng tiếng Anh tối thiểu và sử dụng ứng dụng của riêng mình để huấn luyện giọng nói, đảm bảo vòng tài trợ đầu tiên chỉ trong sáu tháng. Người chiến thắng trong cuộc thách thức AWS AI và chương trình khởi nghiệp AI châu Âu Meta x Hugging Face, Vocal Image gần đây đã huy động được 3,6 triệu đô la tiền hạt giống do Educapital (Pháp) dẫn đầu và mở rộng quy mô lên hơn 14 triệu đô la doanh thu hàng năm.
Bạn đã thành lập Vocal Image vào năm 2021. Điều gì đã truyền cảm hứng cho bạn xây dựng một huấn luyện viên kỹ năng mềm AI, và bạn đang cố gắng giải quyết vấn đề gì ngay từ đầu?
Lo lắng khi nói trước đám đông đã là một phần của cuộc sống tôi trong một thời gian dài. Tôi đã bị bắt nạt ở trường học vì cách phát âm không rõ ràng, và trải nghiệm đó thực sự đã ở lại với tôi. Sau đó, khi là một sinh viên thực tập CNTT, tôi phải trình bày trước các khách hàng cấp cao, và nỗi sợ hãi đó lại xuất hiện.
Sau đó, vào năm 2021, sau cuộc cách mạng không thành công ở Belarus, tôi phải chuyển đến châu Âu qua đêm. Bỗng nhiên tôi phải trình bày trước các nhà đầu tư bằng tiếng Anh, một ngôn ngữ mà tôi hầu như không nói được. Đó là một trải nghiệm đáng sợ, nhưng không có lựa chọn nào khác. Tôi đã dành hàng giờ mỗi ngày để luyện tập phát âm của mình bằng một phiên bản rất sớm của những gì sau này sẽ trở thành Vocal Image. Thậm chí tôi đã mất vài tuần chỉ để học cách phát âm đúng âm “V” để có thể nói tên công ty của mình.
Chúng tôi bắt đầu với một ứng dụng cơ bản như YouTube, nhưng với một máy ghi âm giọng nói và tính năng bình luận tích hợp. Người dùng có thể xem video, luyện tập lặp lại các dòng và sau đó nghe lại bản ghi âm của riêng họ. Khi xem cách mọi người sử dụng nó, chúng tôi nhanh chóng nhận ra rằng họ tuyệt đối cần phản hồi. Những người dùng đầu tiên của chúng tôi đã chỉ cho chúng tôi rằng việc chỉ tiêu thụ nội dung không đủ để đạt được kết quả thực sự; họ cần phản hồi ngay lập tức. Chúng tôi đã cố gắng cung cấp phản hồi thông qua các huấn luyện viên con người, nhưng cách tiếp cận đó không thể mở rộng quy mô, và đó là lý do chúng tôi chuyển sang sử dụng AI.
Đó là một nhận thức cá nhân của tôi rằng tôi có thể luyện tập các bài trình bày đầu tiên của mình với nền tảng của chúng tôi thay vì một người. Không có áp lực, không phán xét. Sự tự do đó đã thay đổi mọi thứ cho tôi. Một khi tôi đã giải quyết được vấn đề của riêng mình, tôi nhận ra rằng có bao nhiêu người đối mặt với vấn đề tương tự. Hơn 200 triệu người gặp khó khăn khi nói trước đám đông.
Trước Vocal Image, bạn đã điều hành một phòng tập nhảy. Làm thế nào mà kinh nghiệm về chuyển động và biểu đạt của bạn ảnh hưởng đến cách tiếp cận giao tiếp và tự tin giọng nói của bạn?
Tôi không phải là một vũ công; tôi thực sự đã xây dựng một doanh nghiệp tập trung vào tự thể hiện và con người. Đó là thông qua công việc đó mà tôi nhận ra rằng bạn có thể nói rất nhiều về sự tự tin nội tâm của một người chỉ bằng cách xem họ nhảy múa.
Chuyển động cũng đóng vai trò rất lớn trong cách bạn thể hiện bản thân. Cách bạn di chuyển, tư thế, hơi thở của bạn, tất cả đều là một phần của giao tiếp. Đó là nơi huấn luyện AI trở nên mạnh mẽ, vì nó có thể giúp mọi người luyện tập trên tất cả các lĩnh vực đó trong một nơi.
Trước đây, các công ty phải thuê nhiều huấn luyện viên khác nhau. Một người cho giao tiếp trước công chúng, một người cho ngôn ngữ cơ thể, một người cho sự tự tin. Giờ đây, với AI, tất cả đều được kết nối. Bạn có thể xây dựng bức tranh toàn diện về giao tiếp, không chỉ một phần của nó.
Không giống như hầu hết các công cụ giao tiếp AI, bạn đã quyết định không sử dụng ChatGPT làm nền tảng cho huấn luyện viên của mình. Điều gì đã dẫn đến quyết định đó?
Sự phấn khích xung quanh ChatGPT thực sự đã trở thành một bước ngoặt lớn cho chúng tôi. Khi nó trở nên phổ biến, nó đã tạo ra một sự gia tăng lớn trong niềm tin vào AI, và chúng tôi đã có thể tận dụng điều đó để giúp mọi người tin vào công nghệ của riêng chúng tôi.
Nhưng điều quan trọng ở đây là: chúng tôi tuyệt đối không muốn sử dụng nó làm nền tảng của mình. Mục tiêu của chúng tôi từ đầu là sử dụng mô hình độc đáo của mình để đánh giá giọng nói và mẫu nói của mọi người. Chúng tôi sử dụng các mô hình ngôn ngữ lớn như Gemini, Claude và ChatGPT cũng như cơ sở kiến thức, mẹo và thủ thuật từ văn học giao tiếp trong các mô hình hiện tại của chúng tôi, nhưng chúng không phải là cốt lõi của cơ chế phản hồi của chúng tôi. Nền tảng thực sự của phản hồi của chúng tôi là đầu vào của con người.
Nỗi sợ hãi về việc huấn luyện AI cảm giác như robot là có thực. Để chống lại điều đó, chúng tôi đã tạo ra một cộng đồng trong Vocal Image nơi người dùng có thể kết nối ngay lập tức, chia sẻ mục tiêu chung là cải thiện kỹ năng giao tiếp và hỗ trợ lẫn nhau trong hành trình của họ. Và cộng đồng này liên tục phát triển và cải thiện AI của chúng tôi.
Bạn có thể giải thích rõ hơn về việc đào tạo AI của mình chỉ trên giọng nói của con người khác với các phương pháp truyền thống dựa trên LLM như thế nào về kết quả và tính xác thực?
Chúng tôi sử dụng các mô hình ngôn ngữ lớn như một phần của quá trình đánh giá và ngữ cảnh, nhưng nền tảng thực sự của hệ thống của chúng tôi là dữ liệu đằng sau nó. Mô hình cốt lõi của chúng tôi được đào tạo trên cộng đồng của riêng chúng tôi, bao gồm những người đã tập hợp lại để cải thiện kỹ năng giao tiếp của họ.
AI chỉ tốt như những con người nó học hỏi từ. Bộ dữ liệu độc quyền của chúng tôi hiện bao gồm hơn một triệu giọng nói độc đáo của con người, mỗi giọng nói mang âm điệu, nhịp điệu và cảm xúc, tất cả đều đại diện cho bản chất thực sự của giao tiếp.
Tập dữ liệu của bạn bao gồm hơn một triệu giọng nói của con người. Những thách thức nào bạn đã gặp phải khi thu thập và gắn nhãn cho một tập hợp dữ liệu độc đáo như vậy?
Bạn không thể dựa vào mọi điểm dữ liệu như nhau. Một số người dùng đánh giá cẩn thận, những người khác chỉ nhấp qua. Chúng tôi phải thiết kế một hệ thống phân biệt phản hồi có suy nghĩ với tiếng ồn. Theo thời gian, chúng tôi đã học cách đưa trọng lượng nhiều hơn cho những người dùng tham gia nhất quán và có phán quyết đáng tin cậy, trong khi lọc ra đầu vào ngẫu nhiên.
Phần khó nhất là hoạt động, liên quan đến việc xây dựng một hệ sinh thái đánh giá thưởng cho chất lượng hơn số lượng. Đó là nơi cộng đồng của chúng tôi trở nên vô giá. Những người này không phải là người dùng internet ngẫu nhiên, họ là những người thực sự đang cố gắng cải thiện kỹ năng mềm của mình và giúp đỡ người khác làm điều tương tự. Tất cả các đánh giá đều ẩn danh, điều này giúp giữ cho phản hồi không bị thiên vị và xác thực.
Cơ chế đánh giá “giống Tinder” do cộng đồng dẫn dắt là rất thú vị — làm thế nào vòng phản hồi này định hình quá trình học tập liên tục của AI?
Mỗi đánh giá, trong mọi ngôn ngữ, trở thành một mảnh thông tin nhỏ tinh chỉnh mô hình của chúng tôi. Đó là một vòng phản hồi sống. Càng nhiều người luyện tập và đánh giá, hệ thống càng trở nên thông minh hơn trong việc nhận ra những sắc thái của giọng nói và cảm xúc, học cách mọi người thực sự nhận thức về sự tự tin, ấm áp hoặc quyền uy trên các nền văn hóa.
Những bài học chính nào bạn đã rút ra trong khi phát triển một mô hình AI tập trung vào kỹ năng mềm chứ không phải năng lực kỹ thuật?
Thử thách chính là đo lường. Không có thước đo phổ quát cho “tin cậy” hoặc “thu hút”. Chúng tôi phải tạo ra thước đo của riêng mình.
Đây là nơi Định luật số lớn đến. Nếu 100.000 người đồng ý rằng một giọng nói nhất định nghe có vẻ tự tin hoặc đồng cảm, bạn có thể bắt đầu tin tưởng vào nhận thức tập thể đó. Theo thời gian, chúng tôi đã dạy cho AI của mình dự đoán các chất lượng chủ quan, những thứ không thể được chấm điểm bằng một câu trả lời đúng hoặc sai đơn giản. Đó là bước đột phá: học cách lượng hóa những gì đã luôn được coi là vô hình.
Với 14 triệu đô la doanh thu hàng năm và một vòng hạt giống mới trị giá 3,6 triệu đô la, những ưu tiên chính của bạn cho giai đoạn tăng trưởng tiếp theo là gì — liệu đó là nâng cao mô hình AI, mở rộng cơ sở người dùng hoặc làm sâu sắc hơn trải nghiệm cộng đồng?
Sứ mệnh của chúng tôi luôn tập trung vào con người. Chúng tôi giúp mọi người giao tiếp với sự tự tin và xác thực hơn.
Giai đoạn tiếp theo là về việc mở rộng tác động đó trên toàn cầu. Chúng tôi đang mở rộng sang các ngôn ngữ và địa lý mới, và phát triển các mô块 kỹ năng mềm mới như đàm phán, lắng nghe tích cực và ăn nói lưu loát.
Nhiều người dùng cho biết các huấn luyện viên AI cảm giác như robot hoặc không có tính cá nhân. Làm thế nào bạn đảm bảo rằng Vocal Image cung cấp phản hồi có tính cảm xúc và nhận thức ngữ cảnh?
Chúng tôi tập trung vào việc cá nhân hóa cao. Từ lần tương tác đầu tiên, chúng tôi học hỏi về bạn, bao gồm giọng nói, tuổi tác, ngữ cảnh chuyên môn và mẫu nói. Theo thời gian, chúng tôi có ký ức, nhớ lại cách bạn đã cải thiện, nơi bạn gặp khó khăn và loại phản hồi nào có tác động nhất.
Điều đó cho phép AI thích nghi động. Trải nghiệm cảm giác cá nhân vì nó thực sự là cá nhân. Nó được định hình hoàn toàn bởi dữ liệu của bạn và hành trình của bạn, không phải bởi một kịch bản chung chung.
Nhìn về tương lai, bạn thấy huấn luyện kỹ năng mềm AI sẽ phát triển như thế nào khi AI tạo sinh và cảm xúc tiếp tục trưởng thành?
Phát triển con người luôn là sự kết hợp giữa thiên nhiên và nuôi dưỡng. Khoa học cho chúng tôi biết rằng lãnh đạo là khoảng một nửa bẩm sinh, một nửa học được. Phần học được trước đây được dành cho các giám đốc điều hành có thể chi trả cho các huấn luyện viên đắt tiền. Trong một thời gian dài, các công ty đã phải chi từ 7.000 đến 25.000 đô la mỗi năm cho việc huấn luyện một nhà lãnh đạo. AI đang thay đổi điều đó.
Ngoài ra, sự tham gia với các huấn luyện viên con người sẽ đòi hỏi phải giữ lại nhiều huấn luyện viên riêng biệt, trong khi một huấn luyện viên AI có thể thay thế tất cả họ.
Hiện tại, chúng tôi sử dụng một đường ống của các mô hình khác nhau để phân tích các khía cạnh khác nhau của giao tiếp, nhưng tương lai là một hệ thống thống nhất duy nhất đánh giá và hướng dẫn bạn một cách toàn diện. Công nghệ này sẽ dân chủ hóa sự phát triển. Bạn sẽ không cần phải được sinh ra với khả năng lãnh đạo bẩm sinh hoặc có một ngân sách doanh nghiệp lớn để掌握 giao tiếp. Bạn chỉ cần sự tò mò và khả năng tiếp cận, và việc tạo ra môi trường cho điều đó phát triển là điều thúc đẩy tôi mỗi ngày.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm có thể truy cập Vocal Image.












