Phỏng vấn
Stas Tushinskiy, CEO & Co-Founder của Instreamatic – Loạt phỏng vấn

Stas Tushinskiy là CEO và đồng sáng lập của Instreamatic, một nền tảng cung cấp các giải pháp tiếp thị âm thanh và giọng nói được hỗ trợ bởi AI để giúp các thương hiệu tương tác tốt hơn với người tiêu dùng.
Trước đây, bạn đã đồng sáng lập Unisound, một cơ quan quảng cáo âm thanh. Kinh nghiệm này đã dẫn bạn đến việc hình thành ý tưởng về việc ra mắt một công ty tiếp thị giọng nói AI như thế nào?
Kinh nghiệm của tôi tại Unisound đã giúp tôi hiểu rõ về sự thay đổi của cảnh quan quảng cáo âm thanh kỹ thuật số. Chúng tôi đã đi đầu trong việc nhận ra nhu cầu ngày càng tăng và tiềm năng của quảng cáo âm thanh trong không gian kỹ thuật số.
Một kết luận quan trọng từ thời gian của tôi ở đó là nhận ra rằng tính cá nhân hóa và ngữ cảnh hóa tăng cường đáng kể hiệu quả của quảng cáo, bao gồm cả quảng cáo âm thanh. Sự hiểu biết này đã trở thành mộtcornerstone cho tầm nhìn đằng sau Instreamatic.
Tại Unisound, chúng tôi đã quan sát thấy một khoảng trống trên thị trường về các giải pháp quảng cáo thông minh và phản hồi. Chúng tôi đã hình dung sử dụng AI không chỉ để nhắm mục tiêu mà còn để tạo ra một trải nghiệm tương tác và hấp dẫn hơn. Điều này đã dẫn đến ý tưởng về một nền tảng tiếp thị được hỗ trợ bởi AI, sẽ cách mạng hóa cách chúng tôi tương tác với quảng cáo.
Có thể chia sẻ câu chuyện về việc ra mắt Instreamatic?
Ban đầu, Instreamatic được sinh ra từ tầm nhìn chuyển đổi cách các nhà xuất bản âm thanh kiếm tiền từ nội dung của họ. Ban đầu, chúng tôi tập trung vào việc phục vụ quảng cáo âm thanh để kiếm tiền, điều này vẫn là một phần quan trọng của hoạt động của chúng tôi.
Khi chúng tôi深入 vào ngành công nghiệp, chúng tôi đã xác định một cơ hội đáng kể trong AI để tối ưu hóa sáng tạo. Sự nhận ra này là then chốt trong việc định hình hướng của chúng tôi về việc tích hợp công nghệ AI sâu hơn vào các dịch vụ của chúng tôi.
Sự hội tụ của chuyên môn của chúng tôi trong quảng cáo âm thanh và sự tiến bộ của công nghệ AI là chất xúc tác cho Instreamatic. Chúng tôi đã nhìn thấy tiềm năng không chỉ phục vụ các nhà xuất bản mà còn nâng cao trải nghiệm quảng cáo tổng thể cho người dùng và nhà quảng cáo, mở ra con đường cho một hệ sinh thái quảng cáo động và hiệu quả hơn.
Các công nghệ AI/ML ban đầu được sử dụng là gì?
Chúng tôi bắt đầu với một bộ phân loại đơn giản. Đó là một phương pháp học máy có giám sát, trong đó mô hình cố gắng dự đoán nhãn chính xác của dữ liệu đầu vào. Sau đó, chúng tôi đã nâng cao bộ phân loại của mình bằng cách sử dụng các bản nhúng. Cuối cùng, chúng tôi không giới hạn mình trong các công nghệ NLP. Các ý tưởng và thách thức mới đã mang lại cho chúng tôi những chướng ngại vật mới và hiện tại, kho vũ khí của chúng tôi bao gồm tổng hợp giọng nói và nhân bản giọng nói không có shot.
Trí tuệ tạo sinh đã thay đổi ngăn xếp công nghệ và cách bạn triển khai nó như thế nào?
Trí tuệ tạo sinh đã mang lại những thay đổi đáng kể cho cả ngăn xếp công nghệ và chiến lược triển khai của chúng tôi. Ngăn xếp công nghệ hiện tại của chúng tôi bao gồm các thư viện và khuôn khổ học máy tiên tiến hỗ trợ các mô hình trí tuệ tạo sinh, đặc biệt là cho tổng hợp giọng nói và nhân bản giọng nói không có shot. Chúng tôi sử dụng các tài nguyên tính toán hiệu suất cao để đào tạo các mô hình này, vì chúng yêu cầu sức mạnh tính toán đáng kể. Điều này liên quan đến việc sử dụng phần cứng tăng tốc GPU để xử lý các yêu cầu xử lý mạnh mẽ.
Về việc triển khai, chúng tôi phụ thuộc rất nhiều vào các giải pháp dựa trên đám mây. Điều này cung cấp cho chúng tôi khả năng mở rộng cần thiết để quản lý các khối lượng công việc nặng của các ứng dụng trí tuệ tạo sinh. Chúng tôi sử dụng các công nghệ container hóa như Docker và các công cụ điều phối như Kubernetes để quản lý và mở rộng các ứng dụng của mình một cách hiệu quả. Cài đặt này đảm bảo rằng các mô hình trí tuệ tạo sinh của chúng tôi có thể được triển khai nhanh chóng và mở rộng theo nhu cầu.
Các đường ống CI/CD của chúng tôi được tối ưu hóa cho các công việc học máy. Chúng tôi sử dụng các công cụ cho phép chúng tôi tự động hóa việc đào tạo và triển khai mô hình, đảm bảo rằng chúng luôn được cập nhật với dữ liệu và thuật toán mới nhất. Tự động hóa này là rất quan trọng để duy trì hiệu quả của các ứng dụng trí tuệ tạo sinh của chúng tôi.
Về việc xử lý dữ liệu, chúng tôi đã triển khai các đường ống xử lý dữ liệu mạnh mẽ. Các đường ống này được thiết kế để xử lý hiệu quả các khối lượng dữ liệu lớn, điều này là cần thiết để đào tạo và vận hành các mô hình trí tuệ tạo sinh. Chúng tôi đảm bảo rằng dữ liệu được xử lý và lưu trữ một cách an toàn, tuân thủ các phương pháp hay nhất về bảo mật và quyền riêng tư của dữ liệu.
Tổng thể, việc tích hợp trí tuệ tạo sinh vào ngăn xếp công nghệ của chúng tôi đã dẫn chúng tôi đến việc áp dụng các tài nguyên tính toán hiệu suất cao, cơ sở hạ tầng dựa trên đám mây, container hóa để mở rộng, đường ống CI/CD tự động hóa cho học máy và các cơ chế xử lý dữ liệu an toàn. Các yếu tố kỹ thuật này là cơ bản để hỗ trợ các khả năng tiên tiến của các ứng dụng trí tuệ tạo sinh của chúng tôi.
Instreamatic chuyên về quảng cáo âm thanh và video ngữ cảnh – bạn định nghĩa nó như thế nào?
Quảng cáo ngữ cảnh tận dụng các tiến bộ hiện tại trong trí tuệ tạo sinh để thay đổi đáng kể những gì có thể với quảng cáo video và âm thanh. Kết quả cho các doanh nghiệp là tăng cường tương tác của thương hiệu và ROI. Quảng cáo ngữ cảnh cung cấp khả năng gần như vô hạn để liên tục tạo và thử nghiệm A/B nội dung sáng tạo liên quan đến ngữ cảnh và môi trường cụ thể của người nghe.
Thực tế là ngành công nghiệp quảng cáo đã phải đối mặt với tỷ lệ tương tác giảm trong nhiều năm qua. Điều đó có lẽ không phải là điều ngạc nhiên đối với bất kỳ ai, vì người tiêu dùng thể hiện sự mệt mỏi màn hình và kháng lại quảng cáo tổng quát dựa trên việc轟炸 khán giả với số lượng quảng cáo để kiếm chuyển đổi. Trong khi quảng cáo thể hiện nội dung gốc cụ thể và liên quan cao hơn đến người tiêu dùng kiếm được tương tác cao hơn, thời gian và chi phí đầu tư để sản xuất và quản lý riêng biệt nội dung quảng cáo cho mỗi ngữ cảnh của người tiêu dùng là cực kỳ hạn chế.
Quảng cáo âm thanh, video và CTV ngữ cảnh của chúng tôi được hỗ trợ bởi AI để chống lại xu hướng tương tác thấp này bằng cách cho phép các nhà quảng cáo làm cho mỗi quảng cáo siêu liên quan và chính xác nhắm mục tiêu đến người nghe. Hãy xem xét một quảng cáo âm thanh truyền thống 30 giây: một diễn viên lồng tiếng có thể ghi lại một vài biến thể quảng cáo, không đủ để người nghe thực sự ngạc nhiên hoặc để thu hút sự chú ý của họ. Quảng cáo ngữ cảnh có khả năng tăng cường nội dung quảng cáo truyền thống, sử dụng trí tuệ tạo sinh để tổng hợp giọng nói của diễn viên và tự động tạo ra hàng nghìn biến thể quảng cáo trên một chiến dịch.
Quảng cáo ngữ cảnh đặc biệt hữu ích cho việc tái tạo các chiến dịch quảng cáo dài hơn (trong khoảng 3-6 tháng). Truyền thống, các chiến dịch này rất dễ bị mệt mỏi sáng tạo: khán giả nhận được cùng một nội dung sáng tạo một lần nữa, cuối cùng dẫn đến giảm tương tác. Công nghệ của chúng tôi giải quyết thách thức này bằng cách làm cho nó đơn giản để làm mới nội dung sáng tạo hàng tuần. Đối với các nhà bán lẻ có đề xuất sản phẩm được cập nhật hàng tuần, ví dụ, việc tạo quảng cáo tự động của chúng tôi cũng lý tưởng để giữ cho các chiến dịch đó luôn mới mẻ và cập nhật.
Thực tế đến mức nào khi các thương hiệu mong đợi AI sẽ siêu cá nhân hóa quảng cáo?
Điều đó hoàn toàn thực tế, như được chứng minh bởi quảng cáo ngữ cảnh được hỗ trợ bởi trí tuệ tạo sinh. Quảng cáo ngữ cảnh có thể bao gồm các chi tiết siêu cá nhân hóa, bao gồm vị trí của người nghe, thời gian trong ngày, tên hoặc loại ứng dụng hoặc nền tảng họ đang sử dụng và hoạt động họ đang tham gia, cho dù đó là nghe một podcast, chơi một trò chơi, v.v. Quảng cáo ngữ cảnh thậm chí có thể bao gồm các biến như đặt tên cho các cửa hàng địa phương và địa chỉ, khuyến mãi trong cửa hàng, mã khuyến mãi (độc nhất cho mỗi kênh để cho phép đo hiệu suất), điểm đến du lịch với các ưu đãi cụ thể và nhiều hơn nữa. Những quảng cáo này cũng có thể đặt tên cho cửa hàng địa phương gần nhất nơi người nghe có thể tương tác với thương hiệu và đổi lấy ưu đãi được đề xuất trong quảng cáo. Khả năng nhắm mục tiêu này cũng đảm bảo rằng các chiến dịch quảng cáo đạt được khán giả đã được kiểm chứng là dễ tiếp nhận nhất với các sản phẩm và giải pháp được đề xuất. Tất cả các quảng cáo này đều được tạo và phân phối mà không cần ghi lại nội dung giọng nói hoặc nội dung lồng tiếng mới.
Có thể thảo luận về các dịch vụ cốt lõi mà khách hàng của bạn có quyền truy cập?
Từ góc độ của thương hiệu, nền tảng Quảng cáo ngữ cảnh của chúng tôi lấy một mẫu giọng nói ban đầu và kịch bản, xác định tập hợp các tham số duy nhất cho từng người nghe và sử dụng khả năng AI giọng nói của chúng tôi để tạo và phân phối quảng cáo âm thanh, video hoặc CTV phù hợp với các thông số đó. Ví dụ, một Quảng cáo ngữ cảnh được tạo cho một người dùng cụ thể có thể bắt đầu, “Hy vọng bạn đang tận hưởng podcast của mình vào buổi sáng mưa ở Chicago, tôi chỉ muốn nhanh chóng cho bạn biết rằng cà phê mua một tặng một miễn phí tại Jake’s Coffeeshop trong suốt tháng.” Trong khi việc sản xuất cùng một quảng cáo sáng tạo với âm thanh được ghi trước và logic phân nhánh sẽ là một nhiệm vụ gần như không thể, AI giọng nói đằng sau Quảng cáo ngữ cảnh chuẩn bị nội dung sáng tạo này theo yêu cầu – tự động và theo thời gian thực.
Từ góc độ của nhà xuất bản, quảng cáo ngữ cảnh âm thanh, video và CTV được hỗ trợ bởi AI cung cấp một đổi mới mang tính cách mạng với không cần tích hợp phức tạp. Quảng cáo ngữ cảnh hoạt động với tất cả các nền tảng bên phía nhu cầu (DSP) và máy chủ quảng cáo hỗ trợ thẻ VAST, cung cấp khả năng mở rộng tức thì. Các nhà xuất bản cũng có thể tận dụng mạng quảng cáo của chúng tôi để tiếp cận hơn 6 tỷ lần hiển thị trên toàn cầu mà không có chi phí nền tảng: chi phí kỹ thuật được bao gồm trong chi tiêu truyền thông khi xuất bản trong mạng.
Có thể chia sẻ một số chi tiết về quá trình khởi chạy một quảng cáo trên nền tảng?
Khởi chạy một quảng cáo trên nền tảng của chúng tôi chỉ mất vài phút. Người dùng thương hiệu hoặc cơ quan chỉ cần viết kịch bản quảng cáo với hoặc không có sự giúp đỡ từ AI, sau đó chọn một giọng nói miễn phí bản quyền từ Thư viện Giọng nói của chúng tôi hoặc nhân bản giọng nói của chính họ. Người dùng cũng có thể tải lên bất kỳ tài sản bổ sung nào cần thiết (nhạc nền, cảnh quay video, biểu ngữ, v.v.). Người dùng cuối cùng hóa quảng cáo và nền tảng cung cấp các phiên bản sẵn sàng để phục vụ – hoặc thông qua thẻ VAST (tiêu chuẩn ngành cho giao thông quảng cáo), hoặc dưới dạng tệp phương tiện có thể tải xuống sẵn sàng để đi cho bất kỳ môi trường kỹ thuật số và phát sóng nào.
Những quảng cáo được tăng cường bởi AI này không chỉ tăng cường hiệu suất của các chiến dịch quảng cáo âm thanh và video bằng cách cho phép siêu cá nhân hóa theo quy mô lớn, mà còn giảm chi phí sản xuất chiến dịch và giảm thời gian tạo quảng cáo từ vài tuần xuống vài phút. Đối với các chiến dịch có 50+ phiên bản, người dùng trải nghiệm giảm chi phí ~10X. Công nghệ của chúng tôi cũng cung cấp những lợi ích quyết định tương tự cho các chiến dịch sáng tạo đơn lẻ. Nền tảng cũng là một công cụ tuyệt vời cho các đội bán hàng để nhanh chóng tạo ra các bản mô phỏng quảng cáo cho khách hàng của họ mà không cần tham gia với các đội sản xuất và sáng tạo tại giai đoạn đầu, vì AI của chúng tôi có thể viết kịch bản và tạo quảng cáo tùy chỉnh hoàn toàn.
Tầm nhìn của bạn cho tương lai của quảng cáo và tiếp thị AI là gì?
Tôi thực sự nhìn thấy một tương lai nơi khách hàng không bị làm phiền (hoặc tắt) quảng cáo vì mỗi quảng cáo bây giờ đều liên quan và thú vị hơn với họ, với các thương hiệu có khả năng tiếp cận đúng khán giả vào đúng thời điểm với thông điệp ngữ cảnh hoàn hảo. Đó rõ ràng là một sự thay đổi lớn so với nơi ngành công nghiệp đang đứng hiện tại, nhưng tôi tin rằng đó là nơi chúng tôi đang hướng đến – và AI, được tận dụng một cách chiến lược, đang làm cho nó trở nên khả thi. Quảng cáo ngữ cảnh cũng sẽ tiếp tục cải thiện khả năng thu hút sự chú ý của người nghe vì chúng nói trực tiếp đến ngữ cảnh và nhu cầu của họ, đặc biệt là trong thế giới ưu tiên quyền riêng tư nơi nhắm mục tiêu người dùng trở nên khó khăn hơn và khó khăn hơn – vì vậy nhắm mục tiêu ngữ cảnh là cơ chế hiệu quả duy nhất để tăng cường hiệu suất quảng cáo. Trí tuệ tạo sinh quảng cáo tiên tiến của chúng tôi có thể tạo ra nội dung sáng tạo mới không giới hạn để giải quyết từng người nghe như một cá nhân. Kết quả là tăng cường tương tác của người nghe, ROI quảng cáo cao hơn và kết nối khách hàng có ý nghĩa hơn cho các thương hiệu.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, người đọc muốn tìm hiểu thêm nên truy cập Instreamatic.












