ปัญญาประดิษฐ์
EchoSpeech: ปฏิวัติการสื่อสารด้วยเทคโนโลยี Silent-Speech Recognition
นักวิจัยจาก Cornell University ได้พัฒนา EchoSpeech ซึ่งเป็นอินเทอร์เฟซการรู้จำเสียงพูดแบบไร้เสียงที่ใช้การตรวจจับเสียงและปัญญาประดิษฐ์เพื่อจดจำคำสั่งที่ไม่มีเสียงพูดได้สูงสุด 31 คำสั่งตามการเคลื่อนไหวของริมฝีปากและปากอย่างต่อเนื่อง อินเทอร์เฟซแบบสวมใส่ที่ใช้พลังงานต่ำนี้สามารถใช้งานได้บนสมาร์ทโฟนและต้องการข้อมูลการฝึกอบรมผู้ใช้เพียงไม่กี่นาทีสำหรับการจดจำคำสั่ง
Ruidong Zhang นักศึกษาปริญญาเอกด้านวิทยาการข้อมูล เป็นผู้เขียนหลักของ “EchoSpeech: การรู้จำเสียงพูดแบบไร้เสียงอย่างต่อเนื่องบนแว่นตาที่รบกวนน้อยที่สุด ขับเคลื่อนโดย Acoustic Sensingซึ่งจะนำเสนอในการประชุม Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) ในเดือนนี้ที่เมืองฮัมบูร์ก ประเทศเยอรมนี
“สำหรับผู้ที่ไม่สามารถเปล่งเสียงได้ เทคโนโลยีเสียงพูดไร้เสียงนี้อาจเป็นอินพุตที่ยอดเยี่ยมสำหรับเครื่องสังเคราะห์เสียง มันสามารถให้เสียงของผู้ป่วยกลับมาได้” จางกล่าว โดยเน้นย้ำถึงการใช้งานที่มีศักยภาพของเทคโนโลยีพร้อมการพัฒนาต่อไป
แอปพลิเคชันในโลกแห่งความจริงและข้อดีด้านความเป็นส่วนตัว
ในรูปแบบปัจจุบัน EchoSpeech สามารถใช้เพื่อสื่อสารกับผู้อื่นผ่านสมาร์ทโฟนในสภาพแวดล้อมที่การพูดไม่สะดวกหรือไม่เหมาะสม เช่น ร้านอาหารที่มีเสียงดังหรือห้องสมุดที่เงียบสงบ อินเทอร์เฟซเสียงพูดแบบเงียบยังสามารถจับคู่กับสไตลัสและใช้กับซอฟต์แวร์การออกแบบเช่น CAD ซึ่งช่วยลดความจำเป็นในการใช้แป้นพิมพ์และเมาส์ได้อย่างมาก
มาพร้อมกับไมโครโฟนและลำโพงที่มีขนาดเล็กกว่ายางลบดินสอ แว่นตา EchoSpeech ทำหน้าที่เป็นระบบโซนาร์ที่ขับเคลื่อนด้วย AI ที่สวมใส่ได้ ส่งและรับคลื่นเสียงผ่านใบหน้าและตรวจจับการเคลื่อนไหวของปาก อัลกอริทึมการเรียนรู้เชิงลึกจะวิเคราะห์โปรไฟล์เสียงสะท้อนแบบเรียลไทม์ด้วยความแม่นยำประมาณ 95%
“เรากำลังย้ายโซนาร์เข้าสู่ร่างกาย” เฉิง จาง ผู้ช่วยศาสตราจารย์ด้านวิทยาการข้อมูลและผู้อำนวยการห้องทดลอง Smart Computer Interfaces for Future Interactions (SciFi) ของ Cornell กล่าว
เทคโนโลยีการรู้จำเสียงพูดแบบไร้เสียงที่มีอยู่โดยทั่วไปอาศัยชุดคำสั่งที่กำหนดไว้ล่วงหน้าอย่างจำกัด และผู้ใช้จำเป็นต้องเผชิญหน้าหรือสวมกล้อง Cheng Zhang อธิบายว่าสิ่งนี้ไม่สามารถทำได้จริงหรือเป็นไปได้และยังทำให้เกิดข้อกังวลด้านความเป็นส่วนตัวที่สำคัญสำหรับทั้งผู้ใช้และผู้ที่พวกเขาโต้ตอบด้วย
เทคโนโลยีการตรวจจับเสียงของ EchoSpeech ช่วยลดความจำเป็นในการใช้กล้องวิดีโอที่สวมใส่ได้ นอกจากนี้ เนื่องจากข้อมูลเสียงมีขนาดเล็กกว่าข้อมูลภาพหรือวิดีโอ จึงต้องใช้แบนด์วิธน้อยกว่าในการประมวลผล และสามารถส่งไปยังสมาร์ทโฟนผ่านบลูทูธได้แบบเรียลไทม์ ตามข้อมูลของ François Guimbretière ศาสตราจารย์ด้านวิทยาการข้อมูล
“และเนื่องจากข้อมูลได้รับการประมวลผลในสมาร์ทโฟนของคุณแทนที่จะอัปโหลดไปยังคลาวด์” เขากล่าว “ข้อมูลที่ละเอียดอ่อนต่อความเป็นส่วนตัวไม่เคยปล่อยให้คุณควบคุม”