سوات قائدین
ٹرانسفارمر کا اثر: کیا مشینی ترجمہ حل ہو گیا ہے؟

گوگل نے حال ہی میں 110 میں شروع کی گئی ان کے 1000 زبانوں کے اقدام کے حصے کے طور پر گوگل ٹرانسلیٹ پر 2022 نئی زبانیں جاری کرنے کا اعلان کیا۔ 2022 میں، شروع میں وہ 24 زبانیں شامل کیں۔. تازہ ترین 110 مزید کے ساتھ، اب یہ 243 زبانیں ہیں۔ کی بدولت یہ فوری توسیع ممکن ہوئی۔ زیرو شاٹ مشین کا ترجمہ، ایک ایسی ٹیکنالوجی جہاں مشین لرننگ ماڈل بغیر کسی پیشگی مثال کے دوسری زبان میں ترجمہ کرنا سیکھتے ہیں۔ لیکن مستقبل میں ہم مل کر دیکھیں گے کہ کیا یہ پیشرفت مشینی ترجمہ کے چیلنج کا حتمی حل ہو سکتی ہے، اور اس دوران ہم ان طریقوں کو تلاش کر سکتے ہیں جو یہ ہو سکتے ہیں۔ لیکن پہلے اس کی کہانی۔
پہلے کیسا تھا؟
شماریاتی مشین ترجمہ (SMT)
یہ اصل طریقہ تھا جو گوگل ٹرانسلیٹ نے استعمال کیا۔ یہ شماریاتی ماڈلز پر انحصار کرتا تھا۔ انہوں نے ممکنہ تراجم کا تعین کرنے کے لیے بڑے متوازی کارپورا، منسلک جملوں کے تراجم کے مجموعوں کا تجزیہ کیا۔ سب سے پہلے سسٹم نے متن کو ہدف کی زبان میں تبدیل کرنے سے پہلے ایک درمیانی قدم کے طور پر انگریزی میں ترجمہ کیا، اور اسے اقوام متحدہ اور یورپی پارلیمنٹ کی نقلوں کے وسیع ڈیٹاسیٹس کے ساتھ فقروں کا حوالہ دینے کی ضرورت تھی۔ یہ روایتی طریقوں سے مختلف ہے جس کے لیے مکمل گرائمیکل قواعد مرتب کرنے کی ضرورت تھی۔ اور اس کا شماریاتی نقطہ نظر اسے جامد لسانی فریم ورک پر بھروسہ کیے بغیر ڈیٹا کو اپنانے اور سیکھنے دیتا ہے جو تیزی سے مکمل طور پر غیر ضروری ہو سکتا ہے۔
لیکن اس نقطہ نظر کے کچھ نقصانات بھی ہیں۔ سب سے پہلے گوگل ٹرانسلیٹ نے فقرے پر مبنی ترجمہ استعمال کیا جہاں سسٹم نے جملوں کو فقروں میں تقسیم کیا اور انفرادی طور پر ان کا ترجمہ کیا۔ یہ لفظ بہ لفظ ترجمہ کے مقابلے میں ایک بہتری تھی لیکن پھر بھی اس میں عجیب و غریب جملے اور سیاق و سباق کی غلطیاں جیسی حدود تھیں۔ یہ صرف باریکیوں کو پوری طرح سے نہیں سمجھ سکا جیسا کہ ہم کرتے ہیں۔ نیز، SMT متوازی کارپورا رکھنے پر بہت زیادہ انحصار کرتی ہے، اور کسی بھی نسبتاً نایاب زبان کا ترجمہ کرنا مشکل ہوگا کیونکہ اس میں متوازی ڈیٹا کافی نہیں ہے۔
نیورل مشین ٹرانسلیشن (NMT)
2016 میں، گوگل نے نیورل مشین ٹرانسلیشن پر سوئچ کیا۔ یہ پورے جملے کا مجموعی طور پر اور ایک ساتھ ترجمہ کرنے کے لیے گہری سیکھنے کے ماڈلز کا استعمال کرتا ہے، زیادہ روانی اور درست ترجمے دیتا ہے۔ NMT اسی طرح کام کرتا ہے جیسا کہ آپ کے کمپیوٹر میں ایک نفیس کثیر لسانی اسسٹنٹ کا ہونا۔ ترتیب سے ترتیب (seq2seq) فن تعمیر کا استعمال کرتے ہوئے NMT ایک زبان میں جملے کو اس کے معنی سمجھنے کے لیے پروسیس کرتا ہے۔ پھر - دوسری زبان میں ایک متعلقہ جملہ تیار کرتا ہے۔ یہ طریقہ سیکھنے کے لیے بڑے ڈیٹا سیٹس کا استعمال کرتا ہے، شماریاتی مشین ٹرانسلیشن کے برعکس جو کہ سب سے زیادہ ممکنہ ترجمے کا تعین کرنے کے لیے بڑے متوازی کارپورا کا تجزیہ کرنے والے شماریاتی ماڈلز پر انحصار کرتا ہے۔ ایس ایم ٹی کے برعکس، جس نے فقرے پر مبنی ترجمے پر توجہ مرکوز کی اور لسانی اصولوں اور لغات کو تیار کرنے اور برقرار رکھنے کے لیے بہت زیادہ دستی کوشش کی ضرورت تھی، NMT کی تمام الفاظ کی ترتیب کو پروسیس کرنے کی طاقت اسے زبان کے اہم سیاق و سباق کو زیادہ مؤثر طریقے سے پکڑنے دیتی ہے۔ لہٰذا اس نے مختلف زبانوں کے جوڑوں میں ترجمے کے معیار کو بہتر بنایا ہے، جو اکثر انسانی مترجمین کے مقابلے میں روانی اور درستگی کی سطح تک پہنچ جاتا ہے۔
درحقیقت، روایتی NMT ماڈلز ریکرنٹ نیورل نیٹ ورکس - RNNs - کو بنیادی فن تعمیر کے طور پر استعمال کرتے ہیں، کیونکہ وہ ایک پوشیدہ حالت کو برقرار رکھتے ہوئے ترتیب وار ڈیٹا کو پروسیس کرنے کے لیے ڈیزائن کیے گئے ہیں جو کہ ہر نئے ان پٹ (لفظ یا ٹوکن) پر کارروائی کے ساتھ تیار ہوتی ہے۔ یہ پوشیدہ حالت ایک طرح کی میموری کے طور پر کام کرتی ہے جو پچھلے ان پٹ کے سیاق و سباق کو حاصل کرتی ہے، جس سے ماڈل کو وقت کے ساتھ انحصار سیکھنے دیتا ہے۔ لیکن، RNN کمپیوٹیشنل طور پر مہنگے تھے اور مؤثر طریقے سے متوازی بنانا مشکل تھا، جو اس بات کو محدود کر رہا تھا کہ وہ کتنے قابل توسیع ہیں۔
ٹرانسفارمرز کا تعارف
2017 میں، گوگل ریسرچ نے عنوان شائع کیا "توجہ صرف آپ کی ضرورت ہے" ٹرانسفارمرز کو دنیا میں متعارف کرانا اور نیورل نیٹ ورک فن تعمیر میں RNNs سے دور ایک اہم تبدیلی کا نشان لگانا۔
ٹرانسفارمرز صرف توجہ کے طریقہ کار پر انحصار کرتے ہیں، - خود توجہ، جو نیورل مشین ٹرانسلیشن ماڈلز کو ان پٹ ترتیب کے انتہائی اہم حصوں پر منتخب توجہ مرکوز کرنے کی اجازت دیتا ہے۔ RNNs کے برعکس، جو الفاظ کو جملوں کے اندر ایک ترتیب میں پروسیس کرتے ہیں، خود توجہ پورے متن میں ہر ٹوکن کا جائزہ لیتی ہے، اس بات کا تعین کرتی ہے کہ اس کے سیاق و سباق کو سمجھنے کے لیے کون سے دوسرے اہم ہیں۔ تمام الفاظ کی یہ بیک وقت گنتی ٹرانسفارمرز کو اس قابل بناتی ہے کہ وہ بار بار چلنے والے کنکشنز یا convolutional فلٹرز پر انحصار کیے بغیر مختصر اور طویل فاصلے دونوں انحصار کو مؤثر طریقے سے پکڑ سکیں۔
لہذا تکرار کو ختم کرنے سے، ٹرانسفارمرز کئی اہم فوائد پیش کرتے ہیں:
- متوازی قابلیت: توجہ دینے کا طریقہ کار ترتیب کے مختلف حصوں میں متوازی طور پر شمار کر سکتا ہے، جو جدید ہارڈ ویئر جیسے GPUs پر تربیت کو تیز کرتا ہے۔
- تربیت کی کارکردگی: انہیں روایتی RNN-based یا CNN-based ماڈلز کے مقابلے میں نمایاں طور پر کم تربیتی وقت کی ضرورت ہوتی ہے، جو مشینی ترجمہ جیسے کاموں میں بہتر کارکردگی پیش کرتے ہیں۔
زیرو شاٹ مشین ٹرانسلیشن اور PaLM 2
2022 میں، گوگل نے زیرو شاٹ مشین ٹرانسلیشن کا استعمال کرتے ہوئے 24 نئی زبانوں کے لیے سپورٹ جاری کیا، جو مشین ٹرانسلیشن ٹیکنالوجی میں ایک اہم سنگ میل ہے۔ انہوں نے 1,000 زبانوں کے اقدام کا بھی اعلان کیا، جس کا مقصد دنیا کی 1,000 سب سے زیادہ بولی جانے والی زبانوں کی حمایت کرنا ہے۔ وہ اب رول آؤٹ کر چکے ہیں۔ مزید 110 زبانیں۔. زیرو شاٹ مشین ٹرانسلیشن ماخذ اور ہدف کی زبانوں کے درمیان متوازی ڈیٹا کے بغیر ترجمہ کو قابل بناتا ہے، ہر زبان کے جوڑے کے لیے تربیتی ڈیٹا بنانے کی ضرورت کو ختم کرتا ہے — یہ عمل پہلے مہنگا اور وقت طلب تھا، اور کچھ جوڑی زبانوں کے لیے بھی ناممکن تھا۔
یہ ترقی ٹرانسفارمرز کے فن تعمیر اور خود توجہ کے طریقہ کار کی وجہ سے ممکن ہوئی۔ دیٹرانسفارمر ماڈل کی صلاحیت تمام زبانوں میں سیاق و سباق سے متعلق تعلقات کو سیکھنے کے لیے، ایک ساتھ متعدد زبانوں کو سنبھالنے کے لیے اسکیل ایبلٹی کے ساتھ، زیادہ موثر اور موثر کثیر لسانی ترجمے کے نظام کی ترقی کو قابل بنایا۔ تاہم، زیرو شاٹ ماڈلز عام طور پر متوازی ڈیٹا پر تربیت یافتہ افراد سے کم معیار دکھاتے ہیں۔
پھر، ٹرانسفارمرز کی ترقی پر تعمیر، گوگل متعارف کرایا PaLM 2 2023 میں، جس نے 110 میں 2024 نئی زبانوں کے اجراء کا راستہ بنایا۔ PaLM 2 نے قریب سے متعلقہ زبانیں جیسے Awadhi اور Marwadi (ہندی سے متعلق) اور فرانسیسی کریول جیسے Seychellois اور Mauritian Creole کو سیکھنے کی ترجمے کی صلاحیت کو نمایاں طور پر بڑھایا۔ PaLM 2 میں بہتری، جیسا کہ کمپیوٹ کے لیے بہترین اسکیلنگ، بہتر ڈیٹا سیٹس، اور بہتر ڈیزائن — نے زبان سیکھنے کو زیادہ موثر بنایا اور زبان کی حمایت کو بہتر اور بڑا بنانے اور متنوع لسانی باریکیوں کو ایڈجسٹ کرنے کے لیے گوگل کی جاری کوششوں کی حمایت کی۔
کیا ہم یہ دعویٰ کر سکتے ہیں کہ ٹرانسفارمرز کے ساتھ مشینی ترجمہ کے چیلنج سے پوری طرح نمٹا گیا ہے؟
جس ارتقاء کے بارے میں ہم بات کر رہے ہیں اس میں گوگل کے ایس ایم ٹی کو اپنانے سے لے کر زیرو شاٹ مشین ٹرانسلیشن کا استعمال کرتے ہوئے حالیہ 18 اضافی زبانوں میں 110 سال لگے۔ یہ ایک بہت بڑی چھلانگ کی نمائندگی کرتا ہے جو ممکنہ طور پر وسیع متوازی کارپس جمع کرنے کی ضرورت کو کم کر سکتا ہے — ایک تاریخی اور انتہائی محنتی کام جس کی صنعت نے دو دہائیوں سے تعاقب کیا ہے۔ لیکن، تکنیکی اور اخلاقی دونوں پہلوؤں کو مدنظر رکھتے ہوئے، یہ کہنا کہ مشینی ترجمہ کو مکمل طور پر حل کیا گیا ہے، قبل از وقت ہوگا۔
موجودہ ماڈلز اب بھی سیاق و سباق اور ہم آہنگی کے ساتھ جدوجہد کرتے ہیں اور ایسی لطیف غلطیاں کرتے ہیں جو آپ کے متن کے لیے مطلوبہ معنی کو تبدیل کر سکتی ہیں۔ یہ مسائل طویل، زیادہ پیچیدہ جملوں میں بہت موجود ہیں جہاں منطقی بہاؤ کو برقرار رکھنے اور باریکیوں کو سمجھنے کے لیے نتائج کی ضرورت ہوتی ہے۔ اس کے علاوہ، ثقافتی باریکیاں اور محاوراتی تاثرات بھی اکثر کھو جاتے ہیں یا معنی کھو دیتے ہیں، جس کی وجہ سے ایسے ترجمے ہو سکتے ہیں جو گرائمری طور پر درست ہو لیکن ان کا مطلوبہ اثر یا آواز غیر فطری نہ ہو۔
پری ٹریننگ کے لیے ڈیٹا: PaLM 2 اور اسی طرح کے ماڈلز اپنے پیشرو PaLM کو پیچھے چھوڑتے ہوئے متنوع کثیر لسانی ٹیکسٹ کارپس پر پہلے سے تربیت یافتہ ہیں۔ یہ اضافہ PaLM 2 کو کثیر لسانی کاموں میں مہارت حاصل کرنے کے لیے لیس کرتا ہے، جو ترجمہ کے معیار کو بہتر بنانے کے لیے روایتی ڈیٹاسیٹس کی مسلسل اہمیت کو اجاگر کرتا ہے۔
ڈومین کے لیے مخصوص یا نایاب زبانیں: خصوصی ڈومینز جیسے قانونی، طبی، یا تکنیکی شعبوں میں، متوازی کارپورا اس بات کو یقینی بناتا ہے کہ ماڈلز کو مخصوص اصطلاحات اور زبان کی باریکیوں کا سامنا ہو۔ اعلی درجے کے ماڈلز ڈومین کے لیے مخصوص جارجن یا زبان کے بڑھتے ہوئے رجحانات کے ساتھ جدوجہد کر سکتے ہیں، جو زیرو شاٹ مشین ٹرانسلیشن کے لیے چیلنجز پیش کر سکتے ہیں۔ نیز کم وسائل والی زبانوں کا اب بھی خراب ترجمہ کیا جاتا ہے، کیونکہ ان کے پاس وہ ڈیٹا نہیں ہوتا ہے جس کی انہیں درست ماڈلز کی تربیت کے لیے ضرورت ہوتی ہے۔
بینچ مارکنگ: متوازی کارپورا ترجمے کے ماڈل کی کارکردگی کا جائزہ لینے اور بینچ مارکنگ کے لیے ضروری ہے، خاص طور پر ان زبانوں کے لیے مشکل ہے جن میں کافی متوازی کارپس ڈیٹا کی کمی ہے۔ BLEU، BLERT، اور METEOR جیسے خودکار میٹرکس میں گرامر کے علاوہ ترجمے کے معیار میں اہمیت کا اندازہ لگانے کی حدود ہیں۔ لیکن پھر، ہم انسان اپنے تعصبات کی وجہ سے رکاوٹ بنتے ہیں۔ اس کے علاوہ، وہاں بہت زیادہ اہل تشخیص کار نہیں ہیں، اور ٹھیک ٹھیک غلطیوں کو پکڑنے کے لیے زبانوں کے ہر جوڑے کے لیے بہترین دو لسانی تشخیص کار تلاش کرنا۔
وسائل کی شدت: LLMs کی تربیت اور تعیناتی کی وسائل پر مبنی نوعیت ایک رکاوٹ بنی ہوئی ہے، جو کچھ ایپلی کیشنز یا تنظیموں کے لیے رسائی کو محدود کرتی ہے۔
ثقافتی تحفظ۔ اخلاقی جہت بہت گہرا ہے۔ جیسا کہ آئزک کاسویل، گوگل ٹرانسلیٹ ریسرچ سائنٹسٹ، زیرو شاٹ مشین ٹرانسلیشن کی وضاحت کرتا ہے: "آپ اسے ایک پولی گلوٹ کے طور پر سوچ سکتے ہیں جو بہت سی زبانیں جانتا ہے۔ لیکن پھر اس کے علاوہ، اسے مزید 1,000 زبانوں میں متن دیکھنے کو ملتا ہے جن کا ترجمہ نہیں کیا جاتا ہے۔ آپ تصور کر سکتے ہیں کہ اگر آپ کچھ بڑے پولی گلوٹ ہیں، اور پھر آپ کسی دوسری زبان میں ناول پڑھنا شروع کر دیتے ہیں، تو آپ اس بات کو اکٹھا کرنا شروع کر سکتے ہیں کہ عام طور پر آپ کی زبان کے علم کی بنیاد پر اس کا کیا مطلب ہو سکتا ہے۔" اس کے باوجود، متوازی کارپورا کی کمی والی چھوٹی زبانوں پر طویل مدتی اثرات پر غور کرنا بہت ضروری ہے، جب انحصار خود زبانوں سے ہٹ جاتا ہے تو ثقافتی تحفظ کو ممکنہ طور پر متاثر کرتا ہے۔