ہمارے ساتھ رابطہ

کال سینٹر کی گفتگو کے لیے AI پر مبنی جھوٹ پکڑنے والا

مصنوعی ذہانت

کال سینٹر کی گفتگو کے لیے AI پر مبنی جھوٹ پکڑنے والا

mm

جرمنی میں محققین نے مشین لرننگ کا استعمال ایک آڈیو تجزیہ نظام بنانے کے لیے کیا ہے جس کا مقصد بنیادی طور پر کال سینٹر اور معاون عملے کے ساتھ آڈیو کمیونیکیشن میں صارفین کے لیے AI پر مبنی جھوٹ پکڑنے والے کے طور پر کام کرنا ہے۔

۔ کے نظام سزائے موت کی اخلاقیات اور ٹیوشن فیس سمیت متنازعہ موضوعات پر مباحثوں کے دوران 40 طلباء اور اساتذہ کے ذریعہ آڈیو ریکارڈنگ کے خصوصی طور پر بنائے گئے ڈیٹاسیٹ کا استعمال کرتا ہے۔ ماڈل کو ایک ایسے فن تعمیر پر تربیت دی گئی تھی جو Convolutional Neural Networks (CNNs) اور لانگ شارٹ ٹرم میموری (LSTM) کا استعمال کرتا ہے، اور اس نے 98% کی درستگی کی شرح حاصل کی۔

اگرچہ کام کا بیان کردہ ارادہ کسٹمر مواصلات کا حوالہ دیتا ہے، محققین تسلیم کرتے ہیں کہ یہ مؤثر طریقے سے عام مقصد کے جھوٹ پکڑنے والے کے طور پر کام کرتا ہے:

'نتائج سروس کے عمل کی ایک وسیع رینج پر لاگو ہوتے ہیں اور خاص طور پر ان تمام گاہک کے تعاملات کے لیے مفید ہیں جو ٹیلی فون کے ذریعے ہوتے ہیں۔ پیش کردہ الگورتھم کسی بھی صورت حال میں لاگو کیا جا سکتا ہے جہاں یہ ایجنٹ کے لیے یہ جاننا مددگار ہو کہ آیا کوئی صارف اس کے ساتھ بات کر رہا ہے۔

مثال کے طور پر، یہ مشکوک بیمہ کے دعووں میں کمی کا باعث بن سکتا ہے، یا نوکری کے انٹرویوز میں جھوٹے بیانات۔ اس سے نہ صرف سروس کمپنیوں کے آپریشنل نقصانات میں کمی آئے گی بلکہ صارفین کو زیادہ سچے ہونے کی ترغیب ملے گی۔'

ڈیٹا سیٹ جنریشن

جرمن زبان میں عوامی طور پر دستیاب ڈیٹاسیٹ کی عدم موجودگی میں، محققین - نیو-علم یونیورسٹی آف اپلائیڈ سائنسز (HNU) سے - نے اپنا ماخذ مواد بنایا۔ فلائرز کو یونیورسٹی اور مقامی اسکولوں میں تعینات کیا گیا تھا، جس میں 40 رضاکاروں کا انتخاب کیا گیا تھا جن کی کم از کم عمر 16 سال تھی۔ رضاکاروں کو 10 یورو کے Amazon واؤچر کے ساتھ ادائیگی کی گئی تھی۔

سیشنز ایک مباحثہ کلب ماڈل پر منعقد کیے گئے تھے جو رائے کو پولرائز کرنے اور آگ لگانے والے موضوعات کے گرد مضبوط ردعمل کو ابھارنے کے لیے ڈیزائن کیا گیا تھا، جس سے اس تناؤ کو مؤثر طریقے سے نمونہ بنایا گیا تھا جو فون پر صارفین کی پریشانی والی بات چیت میں ہو سکتا ہے۔

جن موضوعات پر رضاکاروں کو عوام میں تین منٹ تک آزادانہ بات کرنی تھی وہ یہ تھے:

– کیا جرمنی میں سزائے موت اور سرعام پھانسی کو دوبارہ متعارف کرایا جانا چاہیے؟
- کیا لاگت کو کور کرنے والی ٹیوشن فیس جرمنی میں وصول کی جانی چاہئے؟
– کیا جرمنی میں ہیروئن اور کرسٹل میتھ جیسی سخت ادویات کے استعمال کو قانونی حیثیت دی جانی چاہیے؟
– کیا غیر صحت بخش فاسٹ فوڈ پیش کرنے والے ریسٹورنٹ چینز، جیسے میک ڈونلڈز یا برگر کنگ پر جرمنی میں پابندی لگا دی جانی چاہیے؟

پری پروسیسنگ

پروجیکٹ نے NLP اپروچ (جہاں تقریر کا لسانی سطح پر تجزیہ کیا جاتا ہے، اور گفتگو کے 'درجہ حرارت' کا اندازہ براہ راست زبان کے استعمال سے لگایا جاتا ہے) کے مقابلے میں ایک خودکار تقریر کی شناخت (ASR) کے نقطہ نظر میں صوتی تقریر کی خصوصیات کے تجزیہ کی حمایت کی۔

پہلے سے پروسیس شدہ نکالے گئے نمونوں کا ابتدائی طور پر میل فریکوئنسی سیپسٹرل کوفیشینٹس (MFCCs) کے ذریعے تجزیہ کیا گیا، یہ ایک قابل اعتماد، پرانا طریقہ ہے جو اب بھی تقریری تجزیہ میں بہت مقبول ہے۔ چونکہ یہ طریقہ پہلی بار 1980 میں تجویز کیا گیا تھا، اس لیے یہ کمپیوٹنگ کے وسائل کے ساتھ تقریر میں بار بار آنے والے نمونوں کو پہچاننے کے معاملے میں خاص طور پر سستی ہے، اور آڈیو کیپچر کے معیار کی مختلف سطحوں کے لیے لچکدار ہے۔ چونکہ دسمبر 2020 میں لاک ڈاؤن حالات میں VOIP پلیٹ فارمز پر سیشنز کیے گئے تھے، اس لیے ریکارڈنگ کا ایک فریم ورک ہونا ضروری تھا جو ضرورت پڑنے پر ناقص کوالٹی آڈیو کا حساب دے سکے۔

یہ نوٹ کرنا دلچسپ ہے کہ مذکورہ بالا دو تکنیکی حدود (1980 کی دہائی کے اوائل میں محدود CPU وسائل اور ایک بھیڑ والے نیٹ ورک کے تناظر میں VOIP کنیکٹیویٹی کی سنکی خصوصیات) یہاں یکجا ہو کر مؤثر طور پر ایک 'تکنیکی طور پر ویرل' ماڈل ہے جو (بظاہر) غیر معمولی طور پر مضبوط ہے۔ مثالی کام کے حالات اور اعلی سطحی وسائل کی عدم موجودگی میں - نتیجے میں الگورتھم کے ہدف کے میدان کی نقل کرنا۔

اس کے بعد فاسٹ فوئیر ٹرانسفارم (FFTمیل اسکیل پر حتمی نقشہ سازی سے پہلے، ہر ایک 'آڈیو فریم' کے اسپیکٹرل پروفائل کی فراہمی کے لیے الگورتھم کا اطلاق آڈیو حصوں کے خلاف کیا گیا تھا۔

تربیت، نتائج اور حدود

تربیت کے دوران، نکالے گئے فیچر ویکٹرز کو وقتی تقسیم شدہ کنوولیشنل نیٹ ورک پرت میں منتقل کیا جاتا ہے، چپٹا اور پھر LSTM پرت میں منتقل کیا جاتا ہے۔

AI سچائی کا پتہ لگانے والے کے لئے تربیتی عمل کا فن تعمیر۔ ماخذ: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

AI سچائی کا پتہ لگانے والے کے لئے تربیتی عمل کا فن تعمیر۔ ماخذ: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

آخر میں، تمام نیوران ایک دوسرے سے جڑے ہوئے ہیں تاکہ ایک بائنری پیشین گوئی پیدا کی جا سکے کہ آیا بولنے والا ایسی باتیں کہہ رہا ہے یا نہیں جسے وہ سچ مانتے ہیں۔

تربیت کے بعد ٹیسٹوں میں، نظام نے ارادے کی تفہیم کے لحاظ سے 98.91% تک درستگی کی سطح حاصل کی (جہاں بولا گیا مواد ارادے کی عکاسی نہیں کر سکتا)۔ محققین کا خیال ہے کہ یہ کام تجرباتی طور پر آواز کے نمونوں کی بنیاد پر یقین کی شناخت کو ظاہر کرتا ہے، اور یہ کہ زبان کی NLP طرز کی تعمیر کے بغیر حاصل کیا جا سکتا ہے۔

حدود کے لحاظ سے، محققین تسلیم کرتے ہیں کہ ٹیسٹ کا نمونہ چھوٹا ہے۔ اگرچہ کاغذ میں واضح طور پر یہ بیان نہیں کیا گیا ہے، لیکن کم حجم ٹیسٹ کے اعداد و شمار بعد میں لاگو ہونے کی صورت میں کم کر سکتے ہیں کہ مفروضے، تعمیراتی خصوصیات اور عمومی تربیتی عمل ڈیٹا سے زیادہ فٹ ہیں۔ کاغذ نوٹ کرتا ہے کہ پورے پروجیکٹ میں بنائے گئے آٹھ ماڈلز میں سے چھ سیکھنے کے عمل میں کسی وقت اوور فٹ کیے گئے تھے، اور یہ کہ ماڈل کے لیے مقرر کردہ پیرامیٹرز کے اطلاق کو عام کرنے کے لیے مزید کام کرنا باقی ہے۔

مزید، اس نوعیت کی تحقیق کو قومی خصوصیات کا حساب دینا چاہیے، اور مقالے میں کہا گیا ہے کہ اعداد و شمار کی تیاری میں شامل جرمن مضامین میں مواصلاتی نمونے ہوسکتے ہیں جو کہ ثقافتوں میں براہ راست نقل نہیں کیے جاسکتے ہیں - ایسی صورت حال جو ممکنہ طور پر کسی ایسے مطالعے میں پیدا ہوگی۔ کوئی بھی قوم