رطم EchoSpeech: إحداث ثورة في الاتصالات باستخدام تقنية التعرف على الكلام الصامت - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

EchoSpeech: إحداث ثورة في التواصل باستخدام تقنية التعرف على الكلام الصامت

تم النشر

 on

الصورة: RUIDONG ZHANG / CORNELL UNIVERSITY

طور باحثون في جامعة كورنيل EchoSpeech ، وهي واجهة صامتة للتعرف على الكلام تستخدم الاستشعار الصوتي والذكاء الاصطناعي للتعرف باستمرار على ما يصل إلى 31 أمرًا غير مسموع بناءً على حركات الشفاه والفم. يمكن تشغيل هذه الواجهة منخفضة الطاقة والقابلة للارتداء على هاتف ذكي ولا تتطلب سوى بضع دقائق من بيانات تدريب المستخدم للتعرف على الأوامر.

رويدونغ زانغ ، طالب دكتوراه في علوم المعلومات ، هو المؤلف الرئيسي لكتاب "EchoSpeech: التعرف المستمر على الكلام الصامت على النظارات ذات الحد الأدنى من الاقتحام المدعومة بالاستشعار الصوتي"، والذي سيتم تقديمه في مؤتمر رابطة آلات الحوسبة حول العوامل البشرية في أنظمة الحوسبة (CHI) هذا الشهر في هامبورغ ، ألمانيا.

"بالنسبة للأشخاص الذين لا يستطيعون نطق الصوت ، يمكن أن تكون تقنية الكلام الصامت هذه مدخلاً ممتازًا لمُركِّب الصوت. قال تشانغ ، مسلطًا الضوء على التطبيقات المحتملة للتكنولوجيا مع مزيد من التطوير.

تطبيقات العالم الحقيقي ومزايا الخصوصية

في شكله الحالي ، يمكن استخدام EchoSpeech للتواصل مع الآخرين عبر الهاتف الذكي في البيئات التي يكون فيها الكلام غير مريح أو غير مناسب ، مثل المطاعم الصاخبة أو المكتبات الهادئة. يمكن أيضًا إقران واجهة الكلام الصامت بقلم واستخدامها مع برامج التصميم مثل CAD ، مما يقلل بشكل كبير من الحاجة إلى لوحة المفاتيح والماوس.

مزودة بميكروفونات ومكبرات صوت أصغر من محايات القلم الرصاص ، تعمل نظارات EchoSpeech كنظام سونار يمكن ارتداؤه يعمل بالذكاء الاصطناعي ، ويرسل ويستقبل موجات صوتية عبر الوجه ويكتشف حركات الفم. ثم تقوم خوارزمية التعلم العميق بتحليل ملفات تعريف الصدى هذه في الوقت الفعلي بدقة تصل إلى 95٪.

قال تشينج زانج ، الأستاذ المساعد لعلوم المعلومات ومدير مختبر كورنيل للواجهات الحاسوبية الذكية للتفاعلات المستقبلية (SciFi): "إننا ننتقل بالسونار إلى الجسم".

تعتمد تقنية التعرف على الكلام الصامت الموجودة عادةً على مجموعة محدودة من الأوامر المحددة مسبقًا وتتطلب من المستخدم مواجهة الكاميرا أو ارتدائها. أوضح Cheng Zhang أن هذا ليس عمليًا ولا مجديًا ويثير أيضًا مخاوف كبيرة تتعلق بالخصوصية لكل من المستخدم وأولئك الذين يتفاعلون معهم.

تلغي تقنية الاستشعار الصوتي من EchoSpeech الحاجة إلى كاميرات الفيديو القابلة للارتداء. علاوة على ذلك ، نظرًا لأن البيانات الصوتية أصغر من بيانات الصور أو الفيديو ، فإنها تتطلب نطاقًا تردديًا أقل للمعالجة ويمكن نقلها إلى هاتف ذكي عبر البلوتوث في الوقت الفعلي ، وفقًا لفرانسوا غيمبريتيير ، أستاذ علوم المعلومات.

قال: "ولأن البيانات تتم معالجتها محليًا على هاتفك الذكي بدلاً من تحميلها على السحابة ، فإن المعلومات الحساسة للخصوصية لا تترك سيطرتك أبدًا".

أليكس ماكفارلاند صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في مجال الذكاء الاصطناعي. لقد تعاون مع العديد من الشركات الناشئة والمنشورات في مجال الذكاء الاصطناعي في جميع أنحاء العالم.