ต้นขั้ว Speechmatics เปิดตัวซอฟต์แวร์การรู้จำเสียงอัตโนมัติ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

Speechmatics เปิดตัวซอฟต์แวร์การรู้จำเสียงอัตโนมัติ

วันที่อัพเดท on

การเริ่มต้นเทคโนโลยีการรู้จำเสียงชั้นนำ Speechmatics ได้เปิดตัวซอฟต์แวร์ 'Autonomous Speech Recognition' ที่ใช้เทคนิคการเรียนรู้เชิงลึกล่าสุดและโมเดลที่ควบคุมด้วยตนเองที่ล้ำสมัย ระบบได้แสดงให้เห็นถึงความสามารถที่เหนือกว่า Amazon, Google และ Microsoft 

ชุดข้อมูลของ Stanford

Speechmatics ขึ้นอยู่กับชุดข้อมูลที่พบใน Stanford's 'ความแตกต่างทางเชื้อชาติในการรู้จำเสียง' การศึกษา และบรรลุความแม่นยำโดยรวม 82.8% สำหรับเสียงของชาวอเมริกันเชื้อสายแอฟริกัน สำหรับการอ้างอิง Google ได้รับอัตราความแม่นยำเพียง 68.7% ในขณะที่ Amazon ทำได้ 68.6%

ระดับความแม่นยำเทียบเท่ากับข้อผิดพลาดในการรู้จำเสียงที่ลดลง 45% ซึ่งเทียบเท่ากับคำสามคำในประโยคโดยเฉลี่ย ระบบ Speechmatics ใหม่ไม่เพียงมีความแม่นยำในเรื่องนี้เท่านั้น แต่ยังแสดงให้เห็นถึงการปรับปรุงในด้านความแม่นยำในด้านสำเนียง อายุ ภาษาถิ่น และลักษณะทางสังคมและประชากรอื่นๆ อีกมากมาย

มักมีความเข้าใจผิดในการรู้จำเสียงเนื่องจากจำนวนข้อมูลที่จำกัดที่อัลกอริทึมสามารถใช้ในการฝึกตัวเองได้ ข้อมูลที่ติดป้ายกำกับจำเป็นต้องจัดประเภทโดยมนุษย์ด้วยตนเอง ซึ่งส่งผลให้ระบบเหล่านี้มีข้อมูลน้อยลง สิ่งนี้ยังจำกัดการเป็นตัวแทนของเสียงทั้งหมด ซึ่งสร้างปัญหาชุดใหม่

การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่มีป้ายกำกับ

Speechmatics กำลังก้าวหน้าอย่างมากในเรื่องนี้ เนื่องจากเทคโนโลยีของบริษัทได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่มีป้ายกำกับจำนวนมหาศาลซึ่งมาจากอินเทอร์เน็ตโดยตรง ข้อมูลมาจากสิ่งต่างๆ เช่น เนื้อหาโซเชียลมีเดียและพ็อดคาสท์ 

การเรียนรู้แบบดูแลตนเองทำให้ระบบได้รับการฝึกฝนเกี่ยวกับเสียง 1.1 ล้านชั่วโมง ซึ่งเพิ่มขึ้นจาก 30,000 ชั่วโมงก่อนหน้า สิ่งนี้ทำให้สามารถแสดงเสียงได้หลากหลายมากขึ้น และช่วยลดอคติของ AI และข้อผิดพลาดในการรู้จำเสียง 

เมื่อพูดถึงเสียงของเด็ก Speechmatics ยังแสดงให้เห็นถึงความสามารถที่เหนือกว่าคู่แข่ง เสียงของเด็กเป็นสิ่งที่ท้าทายในการจดจำด้วยเทคโนโลยีการรู้จำคำพูดแบบดั้งเดิม แต่ Speechmatics สามารถบันทึกด้วยอัตราความแม่นยำ 91.8% Google สามารถทำได้เพียง 83.4% และ Deepgram 82.3% 

Katy Wigdahl เป็น CEO ของ Speechmatics 

“เราอยู่ในภารกิจที่จะมอบความสามารถด้านการเรียนรู้ของเครื่องรุ่นต่อไป และนำเสนอเทคโนโลยีเสียงพูดที่ครอบคลุมและเข้าถึงได้มากขึ้น การประกาศครั้งนี้ถือเป็นก้าวสำคัญในการบรรลุภารกิจดังกล่าว” 

“การมุ่งเน้นของเราในการจัดการกับความลำเอียงของ AI ได้นำไปสู่การก้าวกระโดดครั้งใหญ่ในอุตสาหกรรมการรู้จำเสียง และผลกระทบระลอกคลื่นจะนำไปสู่การเปลี่ยนแปลงในสถานการณ์ต่างๆ มากมาย” วิกดาห์ลกล่าวต่อ “ลองนึกถึงคำอธิบายภาพที่ไม่ถูกต้องที่เราเห็นบนโซเชียลมีเดีย การพิจารณาคดีของศาลที่มีการถอดเสียงคำผิด และแพลตฟอร์มอีเลิร์นนิงที่ต้องต่อสู้กับเสียงของเด็กตลอดช่วงการแพร่ระบาด ข้อผิดพลาดที่ผู้คนต้องยอมรับจนถึงตอนนี้สามารถส่งผลกระทบที่จับต้องได้ในชีวิตประจำวันของพวกเขา” 

Allison Zhu Koenecke เป็นผู้เขียนนำของ Stanford study เกี่ยวกับการรู้จำเสียง

“การศึกษาและปรับปรุงความเป็นธรรมในระบบเสียงพูดเป็นข้อความเป็นสิ่งสำคัญ เนื่องจากมีโอกาสเกิดอันตรายที่แตกต่างกันต่อบุคคลผ่านภาคส่วนปลายน้ำ ตั้งแต่การดูแลสุขภาพไปจนถึงกระบวนการยุติธรรมทางอาญา” 

Alex McFarland เป็นนักข่าวและนักเขียนด้าน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมมือกับสตาร์ทอัพด้าน AI และสิ่งพิมพ์ต่างๆ มากมายทั่วโลก