ต้นขั้ว EchoSpeech: ปฏิวัติการสื่อสารด้วยเทคโนโลยีการรู้จำเสียงเงียบ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

EchoSpeech: ปฏิวัติการสื่อสารด้วยเทคโนโลยี Silent-Speech Recognition

การตีพิมพ์

 on

ภาพ: RUIDONG ZHANG/CORNELL UNIVERSITY

นักวิจัยจาก Cornell University ได้พัฒนา EchoSpeech ซึ่งเป็นอินเทอร์เฟซการรู้จำเสียงพูดแบบไร้เสียงที่ใช้การตรวจจับเสียงและปัญญาประดิษฐ์เพื่อจดจำคำสั่งที่ไม่มีเสียงพูดได้สูงสุด 31 คำสั่งตามการเคลื่อนไหวของริมฝีปากและปากอย่างต่อเนื่อง อินเทอร์เฟซแบบสวมใส่ที่ใช้พลังงานต่ำนี้สามารถใช้งานได้บนสมาร์ทโฟนและต้องการข้อมูลการฝึกอบรมผู้ใช้เพียงไม่กี่นาทีสำหรับการจดจำคำสั่ง

Ruidong Zhang นักศึกษาปริญญาเอกด้านวิทยาการข้อมูล เป็นผู้เขียนหลักของ “EchoSpeech: การรู้จำเสียงพูดแบบไร้เสียงอย่างต่อเนื่องบนแว่นตาที่รบกวนน้อยที่สุด ขับเคลื่อนโดย Acoustic Sensingซึ่งจะนำเสนอในการประชุม Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) ในเดือนนี้ที่เมืองฮัมบูร์ก ประเทศเยอรมนี

“สำหรับผู้ที่ไม่สามารถเปล่งเสียงได้ เทคโนโลยีเสียงพูดไร้เสียงนี้อาจเป็นอินพุตที่ยอดเยี่ยมสำหรับเครื่องสังเคราะห์เสียง มันสามารถให้เสียงของผู้ป่วยกลับมาได้” จางกล่าว โดยเน้นย้ำถึงการใช้งานที่มีศักยภาพของเทคโนโลยีพร้อมการพัฒนาต่อไป

แอปพลิเคชันในโลกแห่งความจริงและข้อดีด้านความเป็นส่วนตัว

ในรูปแบบปัจจุบัน EchoSpeech สามารถใช้เพื่อสื่อสารกับผู้อื่นผ่านสมาร์ทโฟนในสภาพแวดล้อมที่การพูดไม่สะดวกหรือไม่เหมาะสม เช่น ร้านอาหารที่มีเสียงดังหรือห้องสมุดที่เงียบสงบ อินเทอร์เฟซเสียงพูดแบบเงียบยังสามารถจับคู่กับสไตลัสและใช้กับซอฟต์แวร์การออกแบบเช่น CAD ซึ่งช่วยลดความจำเป็นในการใช้แป้นพิมพ์และเมาส์ได้อย่างมาก

มาพร้อมกับไมโครโฟนและลำโพงที่มีขนาดเล็กกว่ายางลบดินสอ แว่นตา EchoSpeech ทำหน้าที่เป็นระบบโซนาร์ที่ขับเคลื่อนด้วย AI ที่สวมใส่ได้ ส่งและรับคลื่นเสียงผ่านใบหน้าและตรวจจับการเคลื่อนไหวของปาก อัลกอริทึมการเรียนรู้เชิงลึกจะวิเคราะห์โปรไฟล์เสียงสะท้อนแบบเรียลไทม์ด้วยความแม่นยำประมาณ 95%

“เรากำลังย้ายโซนาร์เข้าสู่ร่างกาย” เฉิง จาง ผู้ช่วยศาสตราจารย์ด้านวิทยาการข้อมูลและผู้อำนวยการห้องทดลอง Smart Computer Interfaces for Future Interactions (SciFi) ของ Cornell กล่าว

เทคโนโลยีการรู้จำเสียงพูดแบบไร้เสียงที่มีอยู่โดยทั่วไปอาศัยชุดคำสั่งที่กำหนดไว้ล่วงหน้าอย่างจำกัด และผู้ใช้จำเป็นต้องเผชิญหน้าหรือสวมกล้อง Cheng Zhang อธิบายว่าสิ่งนี้ไม่สามารถทำได้จริงหรือเป็นไปได้และยังทำให้เกิดข้อกังวลด้านความเป็นส่วนตัวที่สำคัญสำหรับทั้งผู้ใช้และผู้ที่พวกเขาโต้ตอบด้วย

เทคโนโลยีการตรวจจับเสียงของ EchoSpeech ช่วยลดความจำเป็นในการใช้กล้องวิดีโอที่สวมใส่ได้ นอกจากนี้ เนื่องจากข้อมูลเสียงมีขนาดเล็กกว่าข้อมูลภาพหรือวิดีโอ จึงต้องใช้แบนด์วิธน้อยกว่าในการประมวลผล และสามารถส่งไปยังสมาร์ทโฟนผ่านบลูทูธได้แบบเรียลไทม์ ตามข้อมูลของ François Guimbretière ศาสตราจารย์ด้านวิทยาการข้อมูล

“และเนื่องจากข้อมูลได้รับการประมวลผลในสมาร์ทโฟนของคุณแทนที่จะอัปโหลดไปยังคลาวด์” เขากล่าว “ข้อมูลที่ละเอียดอ่อนต่อความเป็นส่วนตัวไม่เคยปล่อยให้คุณควบคุม”

Alex McFarland เป็นนักข่าวและนักเขียนด้าน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมมือกับสตาร์ทอัพด้าน AI และสิ่งพิมพ์ต่างๆ มากมายทั่วโลก