ต้นขั้ว นักวิจัยเล็งขยายการรู้จำเสียงอัตโนมัติเป็น 2,000 ภาษา - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

นักวิจัยวางแผนที่จะขยายการรู้จำเสียงอัตโนมัติเป็น 2,000 ภาษา

การตีพิมพ์

 on

ทีมนักวิจัยที่ Carnegie Mellon University กำลังมองหาการขยายการรู้จำเสียงพูดอัตโนมัติเป็น 2,000 ภาษา ณ ตอนนี้ มีเพียงส่วนหนึ่งของภาษาพูดประมาณ 7,000 ถึง 8,000 ภาษาทั่วโลกเท่านั้นที่จะได้รับประโยชน์จากเทคโนโลยีภาษาสมัยใหม่ เช่น การถอดเสียงเป็นข้อความหรือคำบรรยายอัตโนมัติ

Xinjian Li เป็นปริญญาเอก นักเรียนในสถาบันเทคโนโลยีภาษาของ School of Computer Science (LTI)

“ผู้คนมากมายในโลกนี้พูดภาษาต่างๆ ได้ แต่เครื่องมือทางเทคโนโลยีทางภาษาไม่ได้ถูกพัฒนาสำหรับพวกเขาทั้งหมด” เขากล่าว “การพัฒนาเทคโนโลยีและรูปแบบภาษาที่ดีสำหรับทุกคนเป็นหนึ่งในเป้าหมายของการวิจัยนี้”

Li อยู่ในทีมผู้เชี่ยวชาญที่ต้องการลดความซับซ้อนของภาษาข้อกำหนดด้านข้อมูลที่จำเป็นในการพัฒนารูปแบบการรู้จำเสียง

ทีมงานยังรวมถึงอาจารย์ของ LTI อย่าง Shinji Watanabe, Florian Metze, David Mortensen และ Alan Black

งานวิจัยเรื่อง “ASR2K: การรู้จำเสียงประมาณ 2,000 ภาษาโดยไม่มีเสียง” ถูกนำเสนอที่ Interspeech 2022 ในเกาหลีใต้

โมเดลการรู้จำเสียงที่มีอยู่ส่วนใหญ่ต้องการชุดข้อมูลข้อความและเสียง แม้ว่าข้อมูลข้อความมีอยู่เป็นพันภาษา แต่เสียงก็ไม่เหมือนกัน ทีมงานต้องการขจัดความต้องการข้อมูลเสียงโดยมุ่งเน้นไปที่องค์ประกอบทางภาษาที่ใช้กันในหลายภาษา

โดยปกติแล้ว เทคโนโลยีการรู้จำเสียงจะเน้นที่หน่วยเสียงของภาษา ซึ่งเป็นเสียงที่แยกความแตกต่างจากภาษาอื่น ซึ่งเป็นเอกลักษณ์เฉพาะของแต่ละภาษา ในขณะเดียวกัน ภาษาต่างๆ ก็มีโทรศัพท์ที่อธิบายลักษณะเสียงของคำ และโทรศัพท์หลายเครื่องสามารถสอดคล้องกับหน่วยเสียงเดียวได้ แม้ว่าภาษาที่แยกจากกันอาจมีหน่วยเสียงต่างกัน แต่โทรศัพท์พื้นฐานอาจเหมือนกัน

ทีมงานกำลังทำงานเกี่ยวกับรูปแบบการรู้จำเสียงที่ใช้หน่วยเสียงน้อยลงและข้อมูลเพิ่มเติมเกี่ยวกับการแบ่งปันโทรศัพท์ระหว่างภาษาต่างๆ สิ่งนี้ช่วยลดความพยายามที่จำเป็นในการสร้างแบบจำลองแยกต่างหากสำหรับแต่ละภาษา การจับคู่โมเดลกับต้นไม้สายวิวัฒนาการ ซึ่งเป็นแผนภาพที่แสดงความสัมพันธ์ระหว่างภาษา จะช่วยในเรื่องกฎการออกเสียง แบบจำลองของทีมและโครงสร้างแบบต้นไม้ช่วยให้สามารถประมาณแบบจำลองคำพูดสำหรับภาษาต่างๆ นับพันภาษา แม้ว่าจะไม่มีข้อมูลเสียงก็ตาม

“เรากำลังพยายามลบข้อกำหนดข้อมูลเสียงนี้ ซึ่งช่วยให้เราย้ายจาก 100 เป็น 200 ภาษาเป็น 2,000 ภาษา” หลี่กล่าว “นี่เป็นงานวิจัยชิ้นแรกที่กำหนดเป้าหมายไปยังภาษาจำนวนมาก และเราเป็นทีมแรกที่ตั้งเป้าที่จะขยายเครื่องมือทางภาษาไปยังขอบเขตนี้”

การวิจัยยังอยู่ในช่วงเริ่มต้น แต่ได้ปรับปรุงเครื่องมือประมาณภาษาที่มีอยู่แล้ว 5%

“แต่ละภาษาเป็นปัจจัยที่สำคัญมากในวัฒนธรรมของตน แต่ละภาษามีเรื่องราวของตนเอง และหากคุณไม่พยายามรักษาภาษา เรื่องราวเหล่านั้นอาจสูญหายไป” หลี่กล่าว “การพัฒนาระบบการรู้จำเสียงแบบนี้และเครื่องมือนี้เป็นขั้นตอนในการพยายามรักษาภาษาเหล่านั้น”

Alex McFarland เป็นนักข่าวและนักเขียนด้าน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมมือกับสตาร์ทอัพด้าน AI และสิ่งพิมพ์ต่างๆ มากมายทั่วโลก