ปัญญาประดิษฐ์
aiOla เปิดตัว QUASAR เพื่อเปลี่ยนแนวคิดเกี่ยวกับวิธีการทำงานของการรู้จำเสียงพูดในกระบวนการผลิต

aiOla ได้เปิดตัว QUASAR ซึ่งเป็นแพลตฟอร์มที่ออกแบบมาเพื่อแก้ไขปัญหาหนึ่งที่คงอยู่มากที่สุดในด้านเสียงพูด AI ขององค์กร: การทำงานที่ไม่สอดคล้องกันของการรู้จำเสียงพูดในสถานการณ์จริง แทนที่จะล็อคลูกค้าไว้กับผู้ให้บริการการรู้จำเสียงพูดอัตโนมัติ (ASR) เพียงผู้เดียว QUASAR ทำงานเป็นเกตเวย์ที่ฉลาดซึ่งกำหนดเส้นทางการโต้ตอบเสียงแต่ละครั้งไปยังเครื่องมือ ASR ที่มีแนวโน้มที่จะทำงานได้ดีที่สุดในขณะนั้น
การเปลี่ยนแปลงนี้มีความสำคัญเนื่องจากระบบพูดกลายเป็นข้อมูลหลักที่ใช้ในการทำงานของ AI ที่ขับเคลื่อนด้วยการทำงานต่างๆ ทั่วทั้งศูนย์บริการ ลดความไม่สอดคล้อง การวิเคราะห์ การค้นหา และที่เพิ่มขึ้นเรื่อยๆ คือตัวแทน AI ที่มีอำนาจอิสระ ในขณะที่คะแนนการประเมินมักเป็นแนวทางในการเลือก ASR สภาพแวดล้อมการผลิตจะถูกครอบงำโดยเสียงพูดที่มีสำเนียง เสียงรบกวน คำศัพท์ที่เฉพาะเจาะจงทางด้านโดเมน และคุณภาพของเครือข่ายที่เปลี่ยนแปลงไป ซึ่งสามารถเปลี่ยนแปลงความแม่นยำในการรู้จำได้อย่างมากจากครั้งหนึ่งไปสู่อีกครั้งหนึ่ง
เหตุใด ASR แบบหนึ่งขนาดที่เหมาะกับทุกคนจึงล้มเหลวเมื่อขยายขนาด
องค์กรส่วนใหญ่ในปัจจุบันใช้ ASR เป็นการตัดสินใจด้านโครงสร้างพื้นฐานที่คงที่ ผู้ให้บริการเดียวถูกเลือกตามคะแนนการประเมินโดยรวม แล้วฝังอยู่ลึกเข้าไปในกระบวนการทำงาน ในทางปฏิบัติ สิ่งนี้สร้างจุดบอดให้เกิดขึ้น เครื่องมือที่โดดเด่นในการพูดที่สะอาดและอ่านได้ง่ายอาจต้องดิ้นรนกับเสียงพูดที่มีสำเนียงหรือคำศัพท์ที่เฉพาะเจาะจงทางอุตสาหกรรม อีกเครื่องมือหนึ่งอาจจัดการกับเสียงรบกวนได้ดี แต่พลาดชื่อเหมาะสมหรือลำดับตัวเลขที่สำคัญสำหรับการปฏิบัติตามข้อกำหนดและบิลлинง
การเปลี่ยนผู้ให้บริการเพื่อแก้ไขช่องว่างเหล่านี้มีค่าใช้จ่ายสูงและรบกวนการทำงาน ซึ่งต้องมีการฝึกอบรมใหม่ การตรวจสอบความถูกต้องใหม่ และการหยุดทำงาน ในขณะเดียวกัน โมเดล ASR ใหม่ๆ และการอัปเดตถูกปล่อยออกมาด้วยความเร็วที่เกินความสามารถขององค์กรส่วนใหญ่ในการทดสอบและนำไปใช้ ผลลัพธ์คืออัตราการรักษาที่ต่ำกว่า สรุปที่ไม่ถูกต้อง การวิเคราะห์ที่อ่อนแอ และค่าใช้จ่ายด้านการรับประกันคุณภาพที่สูงขึ้น ซึ่งทั้งหมดนี้ได้รับแรงผลักดันจากข้อผิดพลาดการถอดเสียงที่สามารถหลีกเลี่ยงได้
ภายในสถาปัตยกรรมของ QUASAR: การรักษา ASR เป็นปัญหาที่มีการปรับเปลี่ยนแบบไดนามิก
QUASAR เข้าใกล้การรู้จำเสียงพูดเป็นความท้าทายในการเพิ่มประสิทธิภาพในเวลาจริง การร้องขอเสียงที่เข้ามาแต่ละครั้งจะถูกประเมินก่อนการถอดเสียง โดยพิจารณาปัจจัยต่างๆ เช่น ลักษณะผู้พูด สภาพเสียง และบริบทโดเมน ตามการประเมินนี้ ระบบจะกำหนดเส้นทางเสียงไปยังเครื่องมือ ASR ที่มีแนวโน้มที่จะให้ผลลัพธ์ที่มีคุณภาพสูงสุดสำหรับการโต้ตอบนั้น
จากด้านเทคนิค QUASAR ทำหน้าที่เป็นชั้นการกำกับดูแลที่สามารถทำงานร่วมกับ API ของคลาวด์เชิงพาณิชย์ โมเดลที่ติดตั้งเอง และการวางจำหน่าย ASR ที่กำหนดเอง การสร้างความสัมพันธ์นี้ทำให้องค์กรสามารถทดลองกับเครื่องมือใหม่ๆ จัดสรรต้นทุนเทียบกับคุณภาพ และหลีกเลี่ยงการล็อคผู้ให้บริการในระยะยาว โดยไม่ต้องเปลี่ยนแอปพลิเคชันในกระบวนการทำงาน
ที่แก่นกลางคือกลไกการประเมินและการจัดอันดับที่ไม่ได้รับการดูแลซึ่งให้คะแนนตัวเลือก ASR ในเวลาจริง แทนที่จะพึ่งพาค่าเฉลี่ยทางประวัติศาสตร์ ระบบจะเรียนรู้อย่างต่อเนื่องจากสถานการณ์จริง ทำให้การตัดสินใจการถอดเสียงที่ปรับเปลี่ยนไปตามสภาพแวดล้อม ผู้พูด และกรณีการใช้งานที่พัฒนา
ประสิทธิภาพทั่วทั้งสภาพเสียงจริง
ในการประเมินภายในที่ครอบคลุมชุดข้อมูลมาตรฐานที่หลากหลาย 6 ชุด ตั้งแต่เสียงพูดที่อ่านได้และเสียงพูดที่มีระดับเชิงวิชาการไปจนถึงเสียงพูดที่มีสำเนียง เสียงรบกวน และเสียงพูดที่มีคำศัพท์เฉพาะทางด้านการเงิน QUASAR ได้เลือกตัวเลือก ASR ที่ทำงานได้ดีที่สุดด้วยความแม่นยำโดยรวม 88.8% หรือตัวเลือกที่ดีที่สุดเมื่อผลลัพธ์เทียบเท่ากัน ความแม่นยำสูงถึง 97% ในเสียงพูดที่สะอาดและยังคงอยู่ในช่วง 79-88% สำหรับเสียงที่ท้าทายมากขึ้นซึ่งเกี่ยวข้องกับสำเนียง เสียงรบกวน และคำศัพท์เฉพาะทาง
ผลลัพธ์เหล่านี้เน้นย้ำถึงข้อคิดที่สำคัญ: ไม่มีเครื่องมือ ASR เพียงตัวเดียวที่ทำงานได้ดีเสมอไปในทุกสถานการณ์ แต่การกำหนดเส้นทางแบบฉลาดสามารถจับข้อดีของหลายๆ ตัวเลือกได้
การเปิดใช้งานเสียงเป็นโครงสร้างพื้นฐานที่มีชีวิต
ด้วยการแยกความสามารถในการรู้จำเสียงพูดออกจากผู้ให้บริการที่คงที่ QUASAR ทำให้ ASR กลายเป็น “โครงสร้างพื้นฐานที่มีชีวิต” ตามที่ aiOla อธิบาย องค์กรจะได้รับการมองเห็นอย่างละเอียดเกี่ยวกับประสิทธิภาพการถอดเสียงที่ระดับการโต้ตอบ พร้อมความสามารถในการเพิ่มประสิทธิภาพสำหรับความแม่นยำ ต้นทุน หรือความล่าช้าขึ้นอยู่กับกรณีการใช้งาน
แนวทางนี้ยังเร่งการขยายไปยังภูมิภาคและแนวตั้งใหม่ๆ แทนที่จะรอผู้ให้บริการเพียงรายเดียวที่จะรองรับภาษา สำเนียง หรือคำศัพท์เฉพาะทางด้านอุตสาหกรรม องค์กรสามารถกำหนดเส้นทางการรับส่งข้อมูลไปยังเครื่องมือที่เหมาะสมที่สุดสำหรับกลุ่มเฉพาะนั้นในวันนี้ และเปลี่ยนเมื่อตัวเลือกที่ดีกว่าปรากฏขึ้น
วิสัยทัศน์โดยรวมของ aiOla สำหรับการทำงานที่ขับเคลื่อนด้วยเสียง
QUASAR สร้างขึ้นจากภารกิจโดยรวมของ aiOla เพื่อทำให้เสียงเป็นหน้าต่างธรรมชาติสำหรับระบบขององค์กร โมเดลที่ได้รับสิทธิบัตรของบริษัทไปไกลกว่าการรู้จำเสียงพูดมาตรฐาน โดยรวมการรู้จำเสียงเข้ากับความรู้ด้านกระบวนการทำงานเพื่อแปลงข้อมูลเสียงพูดเป็นข้อมูลที่มีโครงสร้างและทำงานในเวลาจริง สิ่งนี้ทำให้สามารถทำงานอัตโนมัติได้ด้วยมือฟรีในอุตสาหกรรมที่สำคัญที่การป้อนข้อมูลด้วยมือยังคงเป็นปัญหาการขัดขวาง
ด้วยการสนับสนุน 58 ล้านดอลลาร์ในเงินทุน และทีมที่ขับเคลื่อนด้วยการวิจัย aiOla กำลังจัดตำแหน่งเสียงไม่เพียงแต่เป็นวิธีการป้อนข้อมูลเท่านั้น แต่ยังเป็นโครงสร้างพื้นฐานที่สำคัญสำหรับการดำเนินงาน AI ที่ขับเคลื่อน ด้วย QUASAR บริษัทกำลังขยายวิสัยทัศน์นี้ไปยังชั้น ASR เอง โดยท้าทายสมมติฐานที่มีมานานเกี่ยวกับวิธีการใช้งานการรู้จำเสียงพูดในระดับใหญ่
เมื่อเสียงกลายเป็นหน้าต่างหลักสำหรับตัวแทน AI และระบบขององค์กร การรู้จำเสียงพูดแบบไดนามิกและตระหนักถึงบริบทอาจเป็นสิ่งจำเป็น การเปิดตัว QUASAR ส่งสัญญาณการเคลื่อนไหวออกจากการตัดสินใจแบบโมเดลแบบคงที่ไปสู่การกำกับดูแลที่ปรับเปลี่ยนและขับเคลื่อนด้วยประสิทธิภาพ ซึ่งเป็นแนวทางที่อาจเปลี่ยนแปลงวิธีการที่ระบบนิเวศ AI ของเสียงทั้งหมดบริโภค ASR












