สัมภาษณ์

Dylan Fox, CEO & Founder of AssemblyAI – Interview Series

Published September 14, 2022

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Dylan Fox เป็น CEO & Founder ของ AssemblyAI ซึ่งเป็นแพลตฟอร์มที่แปลงไฟล์เสียงและวิดีโอ รวมถึงสตรีมเสียงสดเป็นข้อความโดยใช้ Speech-to-Text APIs ของ AssemblyAI

สิ่งใดที่ดึงดูดคุณเข้าสู่การเรียนรู้ machine learning ในตอนแรก?

ฉันเริ่มต้นด้วยการเรียนรู้การเขียนโปรแกรมและเข้าร่วม Python Meetups ในวอชิงตัน ดีซี ซึ่งเป็นที่ที่ฉันเรียนมหาวิทยาลัย ผ่านการเรียนในวิทยาลัย ฉันพบว่าตัวเองมีความสนใจในการเขียนโปรแกรมประเภท algorithm มากขึ้น ซึ่งนำฉันเข้าสู่การเรียนรู้ machine learning และ NLP

ก่อนที่จะก่อตั้ง AssemblyAI คุณ曾ทำงานเป็น Senior Software Engineer ที่ Cisco คุณทำงานอะไร?

ที่ Cisco ฉันทำงานเป็น Senior Software Engineer โดยมุ่งเน้นในการพัฒนา Machine Learning สำหรับผลิตภัณฑ์ collaboration

การทำงานของคุณที่ Cisco และปัญหาในการหาซื้อเทคโนโลยีการรู้จำเสียง ทำให้คุณตัดสินใจก่อตั้ง AssemblyAI ได้อย่างไร?

ในงานก่อนหน้านี้ ฉันมีโอกาสทำงานในหลายโครงการที่ต้องการการรู้จำเสียง แต่ทุกๆ บริษัทที่ให้บริการรู้จำเสียงเป็นบริการนั้นมีความเก่าแก่และยากที่จะซื้อหรือใช้บริการ นอกจากนี้ยังใช้เทคโนโลยี AI ที่ล้าสมัย

เมื่อฉันสนใจการวิจัย AI มากขึ้น ฉันสังเกตเห็นว่ามีการวิจัยมากมายในด้านการรู้จำเสียงและความเร็วในการปรับปรุงการวิจัย ดังนั้นจึงเป็นการรวมกันของปัจจัยที่ทำให้ฉันคิดว่า “ถ้าเราสามารถสร้างบริษัท API ที่ใช้การวิจัย AI ล่าสุดและทำให้พัฒนาให้เข้าถึงได้ง่ายกว่าสำหรับนักพัฒนาในการเข้าถึงโมเดล AI ที่มีคุณภาพสูงสำหรับการรู้จำเสียง”

และนั่นคือจุดเริ่มต้นของความคิดในการก่อตั้ง AssemblyAI

สิ่งที่ท้าทายที่สุดในการสร้างเทคโนโลยีการรู้จำเสียงที่แม่นยำและเชื่อถือได้คืออะไร?

ค่าใช้จ่ายและทักษะเป็นสองสิ่งที่ท้าทายที่สุดสำหรับบริษัทใดๆ ในการสร้างเทคโนโลยีการรู้จำเสียงที่แม่นยำและเชื่อถือได้

ข้อมูลมีค่าใช้จ่ายสูงในการเก็บข้อมูล และคุณต้องการหลายร้อยพันชั่วโมงในการสร้างระบบการรู้จำเสียงที่มีคุณภาพ นอกจากนี้ยังต้องการการประมวลผลที่มีประสิทธิภาพสูงในการฝึกอบรม และการให้บริการโมเดลเหล่านี้ในระบบการผลิต cũngมีค่าใช้จ่ายสูงและต้องการทักษะพิเศษในการปรับให้เหมาะสมและทำให้สามารถใช้งานได้

การสร้างเทคโนโลยีเหล่านี้ต้องการทักษะพิเศษซึ่งยากที่จะหา นั่นคือเหตุผลที่ลูกค้ามาใช้บริการของเราเพื่อให้สามารถเข้าถึงโมเดล AI ที่มีคุณภาพสูงซึ่งเราได้วิจัย ฝึกอบรม และให้บริการในระบบ

นอกเหนือจากการถอดเสียงและวิดีโอ AssemblyAI ยังมีโมเดลอื่นๆ ที่สามารถใช้งานได้ คุณสามารถอธิบายได้หรือไม่?

ชุดโมเดล AI ของเราขยายออกไปนอกเหนือจากการถอดเสียงและวิดีโอแบบเรียลไทม์และแบบไม่เรียลไทม์ เราเรียกโมเดลเหล่านี้ว่า Audio Intelligence models ซึ่งช่วยให้ลูกค้าสามารถวิเคราะห์และเข้าใจข้อมูลเสียงได้ดีขึ้น

โมเดล Summarization ของเราสามารถสรุปข้อมูลโดยรวมและสรุปตามเวลาได้โดยอัตโนมัติ ซึ่งสามารถแบ่งและสรุปข้อมูลตามหัวข้อที่เปลี่ยนแปลงในระหว่างการสนทนา (คล้ายกับ YouTube chapters)

โมเดล Sentiment Analysis ของเราสามารถตรวจจับความรู้สึกของแต่ละประโยคที่พูดในไฟล์เสียง โดยสามารถทำเครื่องหมายแต่ละประโยคในข้อความที่ถอดเสียงเป็น Positive, Negative หรือ Neutral

โมเดล Entity Detection ของเราสามารถระบุหน่วยงานที่หลากหลายที่พูดในไฟล์เสียง เช่น ชื่อบุคคลหรือบริษัท ที่อยู่อีเมล วันที่ และสถานที่

โมเดล Topic Detection ของเราสามารถระบุหัวข้อที่พูดในไฟล์เสียงและวิดีโอ โดยใช้มาตรฐาน IAB Taxonomy ซึ่งทำให้เหมาะสำหรับการกำหนดเป้าหมายตามบริบท

โมเดล Content Moderation ของเราสามารถตรวจจับเนื้อหาที่มีความเสี่ยงในไฟล์เสียงและวิดีโอ เช่น ความรุนแรง การส่งเสริมการก่อการร้าย และเนื้อหาที่ไม่เหมาะสมอื่นๆ

การใช้งานที่ใหญ่ที่สุดสำหรับบริษัทที่ใช้ AssemblyAI คืออะไร?

การใช้งานที่ใหญ่ที่สุดสำหรับบริษัทที่ใช้ AssemblyAI ครอบคลุมสี่ประเภท: โทรศัพท์ วิดีโอ การประชุมเสมือน และสื่อ

CallRail เป็นตัวอย่างที่ดีของลูกค้าในพื้นที่ Telephony ซึ่งใช้โมเดล AI ของ AssemblyAI — Core Transcription, Automatic Transcript Highlights และ PII Redaction — เพื่อมอบโซลูชัน Conversational Intelligence ที่มีประสิทธิภาพให้กับลูกค้า

โดยพื้นฐานแล้ว CallRail สามารถแสดงและกำหนดเนื้อหาที่สำคัญในโทรศัพท์ของตนให้กับลูกค้าได้ที่ระดับใหญ่ — เนื้อหาที่สำคัญ เช่น คำขอของลูกค้า คำถามที่ถามบ่อย และคำและวลีที่ใช้บ่อยที่สุด โมเดล PII Redaction ของเราช่วยให้พวกเขาตรวจจับและลบข้อมูลที่มีความเสี่ยงออกจากข้อความที่ถอดเสียง (เช่น หมายเลขประกันสังคม หมายเลขบัตรเครดิต ที่อยู่ส่วนบุคคล และอื่นๆ)

Video ใช้งานตั้งแต่แพลตฟอร์มสตรีมวิดีโอไปจนถึงโปรแกรมแก้ไขวิดีโอ เช่น Veed ซึ่งใช้โมเดล Core Transcription ของ AssemblyAI เพื่อทำให้กระบวนการแก้ไขวิดีโอให้ง่ายขึ้นสำหรับผู้ใช้ Veed ช่วยให้ผู้ใช้สามารถถอดเสียงวิดีโอและแก้ไขโดยตรงโดยใช้คำบรรยาย

ใน Virtual Meetings ซอฟต์แวร์สำหรับการถอดเสียงการประชุม เช่น Fathom ใช้ AssemblyAI เพื่อสร้างคุณสมบัติที่ชาญฉลาดซึ่งช่วยให้ผู้ใช้สามารถถอดเสียงและเน้นย้ำจุดสำคัญจากการประชุม Zoom ของตนได้ ทำให้เกิดการมีส่วนร่วมในการประชุมที่ดีขึ้นและกำจัดงานที่น่าเบื่อในระหว่างและหลังการประชุม (เช่น การบันทึก)

ใน Media เราเห็นแพลตฟอร์มโฮสต์พอดแคสต์ใช้โมเดล Content Moderation และ Topic Detection ของเราเพื่อให้สามารถมอบเครื่องมือโฆษณาที่ดีกว่าสำหรับกรณีการใช้งานความปลอดภัยของแบรนด์และสร้างรายได้จากเนื้อหาที่สร้างโดยผู้ใช้ด้วยโฆษณาแบบไดนามิก

AssemblyAI เพิ่งได้รับ เงินลงทุน 30 ล้านดอลลาร์ ใน Series B จะช่วยเร่งการเดินหน้าของ AssemblyAI ได้อย่างไร?

ความก้าวหน้าที่เกิดขึ้นในด้าน AI นั้นน่าตื่นเต้นมาก เป้าหมายของเราคือการเปิดเผยความก้าวหน้านี้ให้กับนักพัฒนาและทีมผลิตภัณฑ์ทุกคนบนอินเทอร์เน็ต — ผ่าน API ที่เรียบง่าย เมื่อเราวิจัยและฝึกอบรมโมเดล AI ที่มีคุณภาพสูงสำหรับการรู้จำเสียงและ NLP (เช่น การรู้จำเสียง การสรุปภาษา การตรวจจับภาษา และอื่นๆ) เราจะยังคงเปิดเผยโมเดล AI เหล่านี้ให้กับนักพัฒนาและทีมผลิตภัณฑ์ผ่าน API ที่เรียบง่าย — พร้อมให้บริการฟรี

AssemblyAI เป็นสถานที่ที่นักพัฒนาและทีมผลิตภัณฑ์สามารถมาใช้บริการ AI ที่มีคุณภาพสูงซึ่งจำเป็นต่อการสร้างผลิตภัณฑ์ บริการ และบริษัทใหม่ๆ

ในช่วง 6 เดือนที่ผ่านมา เราได้เปิดตัวการสนับสนุน ASR สำหรับ 15 ภาษาใหม่ — รวมถึงภาษาสเปน เยอรมัน ฝรั่งเศส อิตาลี ฮินดี และญี่ปุ่น — และได้ปรับปรุงโมเดล Summarization ของเราอย่างมาก โมเดล Real-Time ASR โมเดล Content Moderation และ การอัปเดตผลิตภัณฑ์อื่นๆ

เรายังไม่ได้ใช้เงินลงทุนใน Series A แต่การระดมทุนครั้งใหม่นี้จะทำให้เรามีความสามารถในการเร่งการดำเนินงานของเรา — โดยไม่กระทบต่อระยะเวลาของเรา

ด้วยการระดมทุนครั้งใหม่นี้ เราจะสามารถเร่งการดำเนินแผนการผลิตภัณฑ์ของเรา สร้างโครงสร้างพื้นฐาน AI ที่ดีขึ้นเพื่อเร่งการวิจัยและเครื่องมือการอนุมานของเรา และขยายทีมวิจัย AI ของเรา — ซึ่งปัจจุบันรวมถึงนักวิจัยจาก DeepMind, Google Brain, Meta AI, BMW และ Cisco

มีอะไรอีกที่คุณต้องการแบ่งปันเกี่ยวกับ AssemblyAI?

เป้าหมายของเราคือการทำให้โมเดล AI ที่มีคุณภาพสูงสามารถเข้าถึงได้สำหรับนักพัฒนาและทีมผลิตภัณฑ์ที่มีขนาดใหญ่มากผ่าน API ที่เรียบง่าย

ขอขอบคุณสำหรับการสัมภาษณ์ที่ดี ผู้อ่านสามารถเรียนรู้เพิ่มเติมได้ที่ AssemblyAI

Antoine Tardif, CEO & Founder of Unite.AI

อ็องตวนเป็นผู้นำที่มีวิสัยทัศน์และเป็นพันธมิตรผู้ก่อตั้งของ Unite.AI โดยมีความหลงใหลที่ไม่สั่นคลอนในการ塑造และส่งเสริมอนาคตของ AI และหุ่นยนต์ เขาเป็นผู้ประกอบการที่มีประสบการณ์หลายครั้ง และเชื่อว่า AI จะมีผลกระทบต่อสังคมมากเท่ากับไฟฟ้า และมักจะพูดถึงศักยภาพของเทคโนโลยีที่เปลี่ยนแปลงและ AGI

As a futurist เขาได้ให้ความสนใจในการสำรวจว่านวัตกรรมเหล่านี้จะเปลี่ยนแปลงโลกของเราอย่างไร นอกจากนี้เขายังเป็นผู้ก่อตั้ง Securities.io ซึ่งเป็นแพลตฟอร์มที่มุ่งเน้นในการลงทุนในเทคโนโลยีที่ทันสมัยซึ่งกำลังกำหนดอนาคตและเปลี่ยนแปลงภาคส่วนต่างๆ

Unite.AI

Dylan Fox, CEO & Founder of AssemblyAI – Interview Series

You may like