sơ khai Dylan Fox, CEO & Founder của AssemblyAI - Chuỗi phỏng vấn - Unite.AI
Kết nối với chúng tôi

Phỏng vấn

Dylan Fox, Giám đốc điều hành & Người sáng lập của AssemblyAI – Loạt bài phỏng vấn

mm

Được phát hành

 on

Dylan Fox là Giám đốc điều hành & Người sáng lập của hộiAI, một nền tảng tự động chuyển đổi các tệp âm thanh và video cũng như các luồng âm thanh trực tiếp thành văn bản bằng API Chuyển giọng nói thành văn bản của AssemblyAI.

Điều gì ban đầu thu hút bạn đến với học máy?

Tôi bắt đầu bằng cách học cách lập trình và tham dự các Buổi gặp mặt về Python ở Washington DC, nơi tôi theo học đại học. Thông qua các khóa học đại học, tôi thấy mình nghiêng nhiều hơn về các vấn đề lập trình kiểu thuật toán, điều này đã dẫn tôi đến với học máy và NLP một cách tự nhiên.

Trước khi thành lập AssemblyAI, bạn là Kỹ sư phần mềm cao cấp tại Cisco, bạn đang làm việc gì?

Tại Cisco, tôi là Kỹ sư phần mềm cao cấp tập trung vào Học máy cho các sản phẩm cộng tác của họ.

Công việc của bạn tại Cisco và vấn đề tìm nguồn cung ứng công nghệ nhận dạng giọng nói đã truyền cảm hứng cho bạn ra mắt AssemblyAI như thế nào?

Trong một số công việc trước đây của mình, tôi đã có cơ hội làm việc trong nhiều dự án AI, bao gồm một số dự án yêu cầu nhận dạng giọng nói. Nhưng tất cả các công ty cung cấp dịch vụ nhận dạng giọng nói đều đã quá lỗi thời, khó mua bất cứ thứ gì từ đó và đang chạy công nghệ AI đã lỗi thời.

Khi tôi ngày càng quan tâm đến nghiên cứu AI, tôi nhận thấy có rất nhiều công việc đang được thực hiện trong lĩnh vực nhận dạng giọng nói và nghiên cứu đang được cải thiện nhanh chóng như thế nào. Vì vậy, đó là sự kết hợp của nhiều yếu tố đã thôi thúc tôi nghĩ, “Điều gì sẽ xảy ra nếu bạn có thể xây dựng một công ty API theo phong cách Twilio bằng cách sử dụng nghiên cứu AI mới nhất, giúp các nhà phát triển dễ dàng tiếp cận các mô hình AI tiên tiến nhất cho bài phát biểu sự công nhận, với trải nghiệm nhà phát triển tốt hơn nhiều.”

Và chính từ đó nảy ra ý tưởng cho hộiAI lớn lên

Thách thức lớn nhất đằng sau việc xây dựng công nghệ nhận dạng giọng nói chính xác và đáng tin cậy là gì?

Chi phí và nhân lực là những thách thức lớn nhất mà bất kỳ công ty nào cũng phải giải quyết khi xây dựng công nghệ nhận dạng giọng nói chính xác và đáng tin cậy.

Dữ liệu rất tốn kém để có được và bạn thường cần hàng trăm nghìn giờ để xây dựng một hệ thống nhận dạng giọng nói mạnh mẽ. Không chỉ vậy, yêu cầu tính toán là rất lớn để đào tạo. Và việc đưa các mô hình này vào sản xuất cũng tốn kém và đòi hỏi tài năng chuyên môn để tối ưu hóa và làm cho nó tiết kiệm.

Xây dựng những công nghệ này cũng đòi hỏi một bộ kỹ năng chuyên biệt khó tìm. Đó là lý do chính khiến khách hàng tìm đến chúng tôi để có các mô hình AI mạnh mẽ mà chúng tôi nghiên cứu, đào tạo và triển khai nội bộ. Họ có quyền truy cập vào nhiều năm nghiên cứu về các mô hình AI tiên tiến nhất cho ASR và NLP, tất cả đều có một API đơn giản.

Ngoài việc sao chép nội dung âm thanh và video thuần túy, AssemblyAI còn cung cấp các mô hình bổ sung, bạn có thể thảo luận về các mô hình này không?

Bộ mô hình AI của chúng tôi mở rộng ra ngoài phiên mã không đồng bộ và thời gian thực. Chúng tôi gọi các mô hình bổ sung này là mô hình Audio Intelligence vì chúng giúp khách hàng phân tích và hiểu rõ hơn về dữ liệu âm thanh.

Mô hình Tóm tắt của chúng tôi cung cấp một bản tóm tắt tổng thể, cũng như các bản tóm tắt được mã hóa theo thời gian tự động phân đoạn và tạo một bản tóm tắt cho từng “chương” khi các chủ đề trong cuộc trò chuyện thay đổi (tương tự như các chương trên YouTube).

Mô hình Phân tích tình cảm của chúng tôi phát hiện tình cảm của từng câu lời nói được nói trong các tệp âm thanh. Mỗi câu trong bảng điểm có thể được đánh dấu là Tích cực, Tiêu cực hoặc Trung lập.

Mô hình Phát hiện thực thể của chúng tôi xác định nhiều loại thực thể được nói trong tệp âm thanh, chẳng hạn như tên người hoặc công ty, địa chỉ email, ngày tháng và địa điểm.

Mô hình Phát hiện chủ đề của chúng tôi gắn nhãn các chủ đề được nói trong tệp âm thanh và video. Các nhãn chủ đề được dự đoán tuân theo Phân loại IAB được tiêu chuẩn hóa, giúp chúng phù hợp với việc nhắm mục tiêu theo ngữ cảnh.

Mô hình Kiểm duyệt nội dung của chúng tôi phát hiện nội dung nhạy cảm trong các tệp âm thanh và video — chẳng hạn như ngôn từ kích động thù địch, bạo lực, các vấn đề xã hội nhạy cảm, rượu, ma túy, v.v.

Một số trường hợp sử dụng lớn nhất cho các công ty sử dụng AssemblyAI là gì?

Các trường hợp sử dụng lớn nhất mà các công ty có đối với AssemblyAI trải rộng trên bốn loại: điện thoại, video, cuộc họp ảo và phương tiện truyền thông.

CallRail là một ví dụ tuyệt vời về khách hàng trong Điện thoại space, người tận dụng các mô hình AI của AssemblyAI — Phiên âm lõi, Điểm nổi bật của bản ghi tự động và Chỉnh sửa PII — để cung cấp giải pháp Trí tuệ đàm thoại mạnh mẽ cho khách hàng của mình.

Về cơ bản, CallRail hiện có thể tự động hiển thị và xác định nội dung chính trong các cuộc gọi điện thoại tới khách hàng của họ trên quy mô lớn — nội dung chính như yêu cầu cụ thể của khách hàng, câu hỏi thường gặp cũng như từ khóa và cụm từ thường được sử dụng. Mô hình Biên tập PII của chúng tôi giúp họ tự động phát hiện và xóa dữ liệu nhạy cảm có trong văn bản bản ghi (ví dụ: số an sinh xã hội, số thẻ tín dụng, địa chỉ cá nhân, v.v.).

Video các trường hợp sử dụng bao gồm từ các nền tảng phát trực tuyến video đến các trình chỉnh sửa video như Veed, những người sử dụng các mô hình Phiên âm lõi của AssemblyAI để đơn giản hóa quy trình chỉnh sửa video cho người dùng. Veed cho phép người dùng phiên âm video của mình và chỉnh sửa chúng trực tiếp bằng cách sử dụng phụ đề.

In Cuộc họp ảo, các công ty phần mềm phiên âm cuộc họp như Fathom đang sử dụng AssemblyAI để xây dựng các tính năng thông minh giúp người dùng của họ phiên âm và đánh dấu những khoảnh khắc quan trọng từ các cuộc gọi Zoom của họ, thúc đẩy mức độ tương tác cuộc họp tốt hơn và loại bỏ các nhiệm vụ tẻ nhạt trong và sau cuộc họp (ví dụ: ghi chú).

In Phương tiện truyền thông, chúng tôi thấy các nền tảng lưu trữ podcast chẳng hạn, sử dụng các mô hình Kiểm duyệt nội dung và Phát hiện chủ đề của chúng tôi để chúng có thể cung cấp các công cụ quảng cáo tốt hơn cho các trường hợp sử dụng an toàn thương hiệu và kiếm tiền từ nội dung do người dùng tạo bằng quảng cáo động.

hộiAI gần đây huy động được vòng Series B trị giá 30 triệu đô la. Điều này sẽ đẩy nhanh sứ mệnh AssemblyAI như thế nào?

Những tiến bộ đang đạt được trong lĩnh vực AI là vô cùng thú vị. Mục tiêu của chúng tôi là hiển thị tiến trình này cho mọi nhà phát triển và nhóm sản phẩm trên internet — thông qua một bộ API đơn giản. Khi chúng tôi tiếp tục nghiên cứu và đào tạo các mô hình AI tiên tiến nhất cho các nhiệm vụ ASR và NLP (như nhận dạng giọng nói, tóm tắt, nhận dạng ngôn ngữ và nhiều nhiệm vụ khác), chúng tôi sẽ tiếp tục giới thiệu các mô hình AI này cho các nhà phát triển và nhóm sản phẩm thông qua các API đơn giản — có sẵn miễn phí.

AssemblyAI là nơi mà cả nhà phát triển và nhóm sản phẩm có thể truy cập dễ dàng vào các mô hình AI tiên tiến mà họ cần để xây dựng các sản phẩm, dịch vụ mới thú vị và toàn bộ công ty.

Trong 6 tháng qua, chúng tôi đã triển khai hỗ trợ ASR cho 15 ngôn ngữ mới—bao gồm tiếng Tây Ban Nha, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Hindi và tiếng Nhật, đã phát hành những cải tiến lớn đối với mô hình Tóm tắt, mô hình ASR thời gian thực, mô hình Kiểm duyệt nội dung và vô số cập nhật sản phẩm khác.

Chúng tôi hầu như không nhúng vào quỹ Series A của mình, nhưng khoản tài trợ mới này sẽ cho chúng tôi khả năng tăng cường mạnh mẽ các nỗ lực của mình — mà không ảnh hưởng đến đường băng của chúng tôi.

Với khoản tài trợ mới này, chúng tôi sẽ có thể đẩy nhanh lộ trình sản phẩm của mình, xây dựng cơ sở hạ tầng AI tốt hơn để tăng tốc các công cụ suy luận và nghiên cứu AI cũng như phát triển nhóm nghiên cứu AI của chúng tôi — ngày nay bao gồm các nhà nghiên cứu từ DeepMind, Google Brain, Meta AI, BMW và Cisco.

Có điều gì khác mà bạn muốn chia sẻ về AssemblyAI không?

Nhiệm vụ của chúng tôi là làm cho các nhà phát triển và nhóm sản phẩm có thể truy cập các mô hình AI tiên tiến nhất ở quy mô cực lớn thông qua một API đơn giản.

Cảm ơn bạn về cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm hãy truy cập hộiAI.

Một đối tác sáng lập của unity.AI & một thành viên của Hội đồng Công nghệ Forbes, Antoine là một nhà tương lai học người đam mê tương lai của AI và robot.

Ông cũng là người sáng lập của Chứng khoán.io, một trang web tập trung vào đầu tư vào công nghệ đột phá.