مصنوعی ذہانت

یکجہتی تقریر اور اشاروں کی ترکیب

تازہ کاری on دسمبر 9، 2022

جب میں جنوبی اٹلی میں کچھ سالوں سے برطانیہ واپس آیا تو بات کرنے کے دوران اشارہ کرنے سے روکنے میں کافی وقت لگا۔ یو کے میں، آپ کی تقریر کو جرات مندانہ ہاتھوں کی حرکت کے ساتھ سپورٹ کرنا آپ کو ضرورت سے زیادہ کیفین والے نظر آتا ہے۔ اٹلی میں، جیسا کہ کوئی زبان سیکھ رہا ہے، اس نے حقیقت میں میری مدد کی۔ سمجھا جائے. اب بھی، زیادہ غیر معمولی مواقع پر جو میں اطالوی بولتا ہوں، 'جنگلی ہاتھ' دوبارہ خدمت میں آتے ہیں۔ بغیر حرکت کے اطالوی بولنا تقریباً ناممکن ہے۔

حالیہ برسوں میں، اشارہ کی حمایت کی مواصلات اطالوی اور یہودی ثقافت میں مارٹن سکورسی اور ابتدائی ووڈی ایلن فلموں کے کام سے صرف ایک ٹراپ کے طور پر عوام کی توجہ میں آیا ہے۔ 2013 میں نیویارک ٹائمز نے ایک مرتب کیا۔ مختصر ویڈیو کی تاریخ اطالوی ہاتھ کے اشارے؛ اکیڈمیا اس موضوع کو دقیانوسی تصور کے طور پر مسترد کرنے کے بجائے ہاتھ سے اشارہ کرنے کے لیے نسلی رجحانات کا مطالعہ کرنا شروع کر رہا ہے۔ اور یونیکوڈ کنسورشیم کے نئے ایموجیز ہیں۔ اشارے کی کمی کو بند کرنا جو کہ مکمل طور پر ڈیجیٹل، ٹیکسٹ پر مبنی مواصلات کے ساتھ آتا ہے۔

تقریر اور اشارے کے لئے ایک متحد نقطہ نظر

اب، نیا تحقیق سویڈن کے KTH رائل انسٹی ٹیوٹ آف ٹیکنالوجی میں تقریر، موسیقی اور سماعت کے شعبے سے، تقریر اور اشاروں کی پہچان کو ایک متحد، کثیر موڈل نظام میں یکجا کرنے کی کوشش کر رہا ہے جو کہ باڈی لینگویج کو ایک مربوط کے طور پر استعمال کرتے ہوئے تقریر پر مبنی مواصلات کی ہماری سمجھ کو ممکنہ طور پر بڑھا سکتا ہے۔ مطالعہ کے متوازی میدان کے بجائے تقریر سے منسلک۔

سویڈش تقریر/اشارہ پروجیکٹ کے ٹیسٹ صفحہ سے بصری۔ ماخذ: https://swatsw.github.io/isg_icmi21/

تحقیق میں ایک نیا ماڈل تجویز کیا گیا ہے جسے Integrated Speech and Gesture (ISG) ترکیب کہا جاتا ہے، اور تقریر اور اشاروں کی تحقیق سے متعدد جدید ترین عصبی ماڈلز کو اکٹھا کرتا ہے۔

نیا نقطہ نظر لکیری کو ترک کر دیتا ہے۔ پائپ لائن ماڈل (جہاں اشاروں سے متعلق معلومات ثانوی پروسیسنگ مرحلے کے طور پر تقریر سے ترتیب وار اخذ کی جاتی ہیں) ایک مزید مربوط نقطہ نظر کے لیے، جو آخری صارفین کے مطابق موجودہ سسٹمز کے ساتھ یکساں درجہ بندی کرتا ہے، اور جو تیزی سے ترکیب کا وقت حاصل کرتا ہے اور پیرامیٹر کی گنتی کو کم کرتا ہے۔

لکیری بمقابلہ مربوط نقطہ نظر۔ ماخذ: https://arxiv.org/pdf/2108.11436.pdf

نئے ملٹی موڈل سسٹم میں ایک بے ساختہ ٹیکسٹ ٹو اسپیچ سنتھیسائزر اور آڈیو اسپیچ سے چلنے والا اشارہ جنریٹر شامل کیا گیا ہے، دونوں ہی موجودہ تثلیث اسپیچ جیسچر پر تربیت یافتہ ہیں۔ ڈیٹاسیٹ. ڈیٹا سیٹ میں ایک آدمی کی 244 منٹ کی آڈیو اور باڈی کیپچر ہے جو مختلف موضوعات پر بات کر رہا ہے اور آزادانہ طور پر اشارہ کرتا ہے۔

کام ایک ناول اور ٹینجینٹل کے برابر ہے۔ ڈورین فروٹ پروجیکٹ، جو اشاروں اور تقریر کے بجائے چہرے کے تاثرات اور تقریر پیدا کرتا ہے، اور جو اظہار کی شناخت اور ترکیب کے دائرے میں آتا ہے۔

architectures کے

پراجیکٹ کی تقریر اور بصری (اشارہ) اجزاء ڈیٹا کے لحاظ سے غیر متوازن ہیں۔ متن بہت کم ہے اور اشارہ امیر اور ڈیٹا پر مشتمل ہے – اہداف اور میٹرکس کی وضاحت کے لحاظ سے ایک چیلنج۔ لہذا محققین نے نظام کا بنیادی طور پر آؤٹ پٹ پر انسانی ردعمل کے ذریعے اندازہ کیا، بجائے اس کے کہ زیادہ واضح میکانکی نقطہ نظر جیسے کہ اوسط مربع غلطی (MSE)۔

دو اہم ISG ماڈلز کے ارد گرد تیار کیا گیا تھا دوسری تکرار گوگل کے 2017 کا ٹیکوٹرون اختتام سے آخر تک تقریر کی ترکیب کا منصوبہ، اور جنوبی کوریا گلو-ٹی ٹی ایس پہل 2020 میں شائع ہوئی۔ Tacotron ایک خودکار LSTM فن تعمیر کا استعمال کرتا ہے، جبکہ Glow-TTS convolution آپریٹرز کے ذریعے متوازی طور پر کام کرتا ہے، تیز رفتار GPU کارکردگی کے ساتھ اور استحکام کے مسائل کے بغیر جو آٹوریگریسو ماڈلز میں شرکت کر سکتے ہیں۔

محققین نے پراجیکٹ کے دوران تین موثر تقریر/اشارہ کے نظاموں کا تجربہ کیا: کثیر موڈل اسپیچ اور اشاروں کی نسل کا ایک ترمیم شدہ ورژن شائع 2021 میں نئے پروجیکٹ پر ایک ہی محققین کی ایک بڑی تعداد کے ذریعہ؛ اوپن سورس Tacotron 2 کا ایک وقف اور ترمیم شدہ ISG ورژن؛ اور Glow-TTS کا انتہائی تبدیل شدہ ISG ورژن۔

سسٹمز کا جائزہ لینے کے لیے، محققین نے ویب پر مبنی فیڈ بیک ماحول بنایا جس میں 3D لوگ بولتے ہیں اور پہلے سے طے شدہ ٹیکسٹ سیگمنٹس میں منتقل ہوتے ہیں (ماحول کی عمومی شکل عوامی منصوبے کا صفحہ).

امتحانی ماحول۔

ٹیسٹ کے مضامین سے کہا گیا کہ وہ تقریر اور اشارے، صرف تقریر اور صرف اشارہ کی بنیاد پر سسٹم کی کارکردگی کا جائزہ لیں۔ نتائج نے پرانے پائپ لائن ورژن کے مقابلے نئے ISG ورژن میں معمولی بہتری ظاہر کی، حالانکہ نیا نظام زیادہ تیزی سے اور کم وسائل کے ساتھ کام کرتا ہے۔

یہ پوچھے جانے پر کہ 'اشارہ کتنا انسان ہے؟'، مکمل طور پر مربوط ISG ماڈل سست پائپ لائن ماڈل سے تھوڑا آگے ختم ہوتا ہے، جس میں Tacotron اور Glow-based ماڈلز مزید پیچھے ہوتے ہیں۔

ایمبیڈڈ شرگ

Tacotron2-ISG ماڈل، تین طریقوں میں سے سب سے زیادہ کامیاب، ڈیٹاسیٹ میں کچھ سب سے زیادہ عام جملے، جیسے کہ 'میں نہیں جانتا' سے متعلق 'سب سے زیادہ' سیکھنے کی سطح کو ظاہر کرتا ہے - واضح ڈیٹا کی کمی کے باوجود جو اس جملے کے ساتھ کندھے اچکانے کا سبب بنے گا، محققین نے پایا کہ جنریٹر واقعی کندھے اچکاتا ہے۔

محققین نوٹ کرتے ہیں کہ اس ناول پروجیکٹ کی بہت ہی مخصوص نوعیت کا مطلب لامحالہ عام وسائل کی کمی ہے، جیسے کہ وقف شدہ ڈیٹا سیٹس جو تقریر اور اشاروں کے اعداد و شمار کو اس طرح شامل کرتے ہیں جو اس طرح کے نظام کی تربیت کے لیے موزوں ہو۔ بہر حال، اور تحقیق کی سرفہرست نوعیت کے باوجود، وہ اسے تقریر، لسانیات اور اشاروں کی پہچان میں ایک امید افزا اور بہت کم دریافت شدہ راستہ سمجھتے ہیں۔