ہمارے ساتھ رابطہ

مصنوعی ذہانت

محققین خودکار تقریر کی شناخت کو 2,000 زبانوں تک پھیلانا چاہتے ہیں۔

اشاعت

 on

کارنیگی میلن یونیورسٹی کے محققین کی ایک ٹیم خودکار تقریر کی شناخت کو 2,000 زبانوں تک پھیلانے کی کوشش کر رہی ہے۔ ابھی تک، دنیا بھر میں بولی جانے والی 7,000 سے 8,000 زبانوں کا صرف ایک حصہ ہی آواز سے متن کی نقل یا خودکار کیپشننگ جیسی جدید زبان کی ٹیکنالوجیز سے مستفید ہوگا۔

سنکیانگ لی پی ایچ ڈی ہے۔ سکول آف کمپیوٹر سائنسز لینگویج ٹیکنالوجیز انسٹی ٹیوٹ (LTI) میں طالب علم۔

"اس دنیا میں بہت سے لوگ متنوع زبانیں بولتے ہیں، لیکن ان سب کے لیے زبان کے ٹیکنالوجی کے اوزار تیار نہیں کیے جا رہے ہیں،" انہوں نے کہا۔ "تمام لوگوں کے لیے ٹیکنالوجی اور زبان کا ایک اچھا ماڈل تیار کرنا اس تحقیق کے مقاصد میں سے ایک ہے۔"

لی کا تعلق ماہرین کی اس ٹیم سے ہے جو زبانوں کو اسپیچ ریکگنیشن ماڈل تیار کرنے کے لیے ڈیٹا کی ضروریات کو آسان بنانے کی کوشش کر رہے ہیں۔

ٹیم میں ایل ٹی آئی کے فیکلٹی ممبران شنجی واتنابے، فلورین میٹزے، ڈیوڈ مورٹینسن اور ایلن بلیک بھی شامل ہیں۔

تحقیق کا عنوان "ASR2K: آڈیو کے بغیر تقریباً 2,000 زبانوں کے لیے تقریر کی پہچانجنوبی کوریا میں Interspeech 2022 میں پیش کیا گیا۔

موجودہ اسپیچ ریکگنیشن ماڈلز کی اکثریت کو ٹیکسٹ اور آڈیو ڈیٹا سیٹ کی ضرورت ہوتی ہے۔ اگرچہ متنی ڈیٹا ہزاروں زبانوں کے لیے موجود ہے، لیکن آڈیو کے لیے بھی ایسا ہی نہیں ہے۔ ٹیم لسانی عناصر پر توجہ مرکوز کرکے آڈیو ڈیٹا کی ضرورت کو ختم کرنا چاہتی ہے جو کہ بہت سی زبانوں میں مشترک ہیں۔

اسپیچ ریکگنیشن ٹیکنالوجیز عام طور پر کسی زبان کے فونیم پر فوکس کرتی ہیں، جو مختلف آوازیں ہیں جو اسے دوسری زبانوں سے ممتاز کرتی ہیں۔ یہ ہر زبان کے لیے منفرد ہیں۔ ایک ہی وقت میں، زبانوں میں ایسے فون ہوتے ہیں جو یہ بیان کرتے ہیں کہ ایک لفظ جسمانی طور پر کیسا لگتا ہے، اور متعدد فونز ایک فونیم سے مطابقت رکھ سکتے ہیں۔ اگرچہ الگ الگ زبانوں میں مختلف فونیم ہو سکتے ہیں، لیکن بنیادی فون ایک جیسے ہو سکتے ہیں۔

ٹیم اسپیچ ریکگنیشن ماڈل پر کام کر رہی ہے جو فونمز پر کم اور زبانوں کے درمیان فونز کا اشتراک کرنے کے بارے میں معلومات پر زیادہ انحصار کرتا ہے۔ اس سے ہر انفرادی زبان کے لیے الگ الگ ماڈل بنانے کے لیے درکار کوششوں کو کم کرنے میں مدد ملتی ہے۔ ماڈل کو فائیلوجنیٹک درخت کے ساتھ جوڑ کر، جو کہ ایک خاکہ ہے جو زبانوں کے درمیان تعلقات کا نقشہ بناتا ہے، یہ تلفظ کے قواعد میں مدد کرتا ہے۔ ٹیم کے ماڈل اور درخت کے ڈھانچے نے انہیں ہزاروں زبانوں کے لیے اسپیچ ماڈل کا اندازہ لگانے کے قابل بنایا ہے یہاں تک کہ آڈیو ڈیٹا کے بغیر۔

لی نے کہا، "ہم آڈیو ڈیٹا کی اس ضرورت کو دور کرنے کی کوشش کر رہے ہیں، جو ہمیں 100 سے 200 زبانوں سے 2,000 تک لے جانے میں مدد کرتا ہے۔" "یہ اتنی بڑی تعداد میں زبانوں کو نشانہ بنانے والی پہلی تحقیق ہے، اور ہم پہلی ٹیم ہیں جس کا مقصد زبان کے ٹولز کو اس دائرہ کار تک پھیلانا ہے۔"

تحقیق، جبکہ ابھی ابتدائی مرحلے میں ہے، موجودہ زبان کے تخمینے کے آلات میں 5% بہتری آئی ہے۔

"ہر زبان اپنی ثقافت میں ایک بہت اہم عنصر ہے۔ ہر زبان کی اپنی کہانی ہوتی ہے، اور اگر آپ زبانوں کو محفوظ رکھنے کی کوشش نہیں کرتے ہیں، تو وہ کہانیاں ختم ہو سکتی ہیں،" لی نے کہا۔ "اس قسم کے اسپیچ ریکگنیشن سسٹم کو تیار کرنا اور یہ ٹول ان زبانوں کو محفوظ رکھنے کی کوشش کرنے کا ایک قدم ہے۔"

Alex McFarland ایک AI صحافی اور مصنف ہے جو مصنوعی ذہانت میں تازہ ترین پیشرفت کی کھوج لگا رہا ہے۔ اس نے دنیا بھر میں متعدد AI اسٹارٹ اپس اور اشاعتوں کے ساتھ تعاون کیا ہے۔