مصنوعی ذہانت
Allen AI کا Tülu 3 ابھی ڈیپ سیک کا غیر متوقع حریف بن گیا۔

سرخیاں آتی رہتی ہیں۔ ڈیپ سیک کے ماڈلز معیارات کو چیلنج کر رہے ہیں، نئے معیارات قائم کر رہے ہیں، اور بہت شور مچا رہے ہیں۔ لیکن AI تحقیقی منظر میں ابھی کچھ دلچسپ ہوا جو آپ کی توجہ کے قابل بھی ہے۔
ایلن اے آئی خاموشی سے ان کا نیا جاری کیا تلو 3 ماڈلز کا خاندان، اور ان کا 405B پیرامیٹر ورژن صرف ڈیپ سیک کے ساتھ مقابلہ نہیں کر رہا ہے - یہ اسے کلیدی معیارات پر مماثل یا شکست دے رہا ہے۔
آئیے اس کو تناظر میں رکھیں۔
405B Tülu 3 ماڈل جیسے اعلی اداکاروں کے خلاف جا رہا ہے۔ ڈیپ سیک V3 کاموں کی ایک حد میں۔ ہم ریاضی کے مسائل، کوڈنگ کے چیلنجز، اور درست ہدایات کی پیروی جیسے شعبوں میں موازنہ یا اعلی کارکردگی دیکھ رہے ہیں۔ اور وہ یہ کام مکمل طور پر کھلے انداز میں کر رہے ہیں۔
انہوں نے مکمل ٹریننگ پائپ لائن، کوڈ، اور یہاں تک کہ ان کا نیا کمک سیکھنے کا طریقہ بھی جاری کیا ہے جسے Reinforcement Learning with Verifiable Rewards (RLVR) کہا جاتا ہے جس سے یہ ممکن ہوا۔
پچھلے کچھ ہفتوں میں اس طرح کی پیشرفت واقعی تبدیل کر رہی ہے کہ اعلی درجے کی AI ترقی کیسے ہوتی ہے۔ جب مکمل طور پر اوپن سورس ماڈل وہاں کے بہترین بند ماڈلز سے میل کھا سکتے ہیں، یہ ایسے امکانات کو کھولتا ہے جو پہلے نجی کارپوریٹ دیواروں کے پیچھے بند تھے۔
تکنیکی جنگ
کس چیز نے Tülu 3 کو نمایاں کیا؟ یہ ایک منفرد چار مرحلوں پر مشتمل تربیتی عمل کی طرف آتا ہے جو روایتی طریقوں سے بالاتر ہے۔
آئیے دیکھتے ہیں کہ ایلن اے آئی نے اس ماڈل کو کیسے بنایا:
مرحلہ 1: اسٹریٹجک ڈیٹا کا انتخاب
ٹیم جانتی تھی کہ ماڈل کا معیار ڈیٹا کے معیار سے شروع ہوتا ہے۔ انہوں نے قائم کردہ ڈیٹاسیٹس کو جوڑ دیا جیسے وائلڈ چیٹ اور اوپن اسسٹنٹ اپنی مرضی کے مطابق تیار کردہ مواد کے ساتھ۔ لیکن یہاں کلیدی بصیرت ہے: انہوں نے صرف ڈیٹا اکٹھا نہیں کیا – انہوں نے مخصوص مہارتوں جیسے ریاضیاتی استدلال اور کوڈنگ کی مہارت کے لیے ٹارگٹڈ ڈیٹا سیٹ بنائے۔
مرحلہ 2: بہتر جوابات تیار کرنا
دوسرے مرحلے میں، ایلن AI نے اپنے ماڈل کی مخصوص مہارتیں سکھانے پر توجہ دی۔ انہوں نے تربیتی ڈیٹا کے مختلف سیٹ بنائے – کچھ ریاضی کے لیے، دوسرے کوڈنگ کے لیے، اور بہت کچھ عام کاموں کے لیے۔ ان مجموعوں کو بار بار آزمانے سے، وہ بالکل دیکھ سکتے تھے کہ ماڈل نے کہاں کام کیا اور اسے کہاں کام کی ضرورت ہے۔ اس تکراری عمل نے اس کی حقیقی صلاحیت کو ظاہر کیا کہ Tülu 3 ہر علاقے میں کیا حاصل کرسکتا ہے۔
مرحلہ 3: موازنہ سے سیکھنا
یہ وہ جگہ ہے جہاں ایلن AI تخلیقی ہوا۔ انہوں نے ایک ایسا نظام بنایا جو فوری طور پر Tülu 3 کے جوابات کا دوسرے ٹاپ ماڈلز سے موازنہ کر سکے۔ لیکن انہوں نے AI میں ایک مستقل مسئلہ بھی حل کیا - ماڈلز کا رجحان صرف لمبائی کی خاطر طویل جوابات لکھنے کا۔ ان کا نقطہ نظر، استعمال کرتے ہوئے لمبائی معمول کے مطابق براہ راست ترجیحی اصلاح (DPO)، کا مطلب ہے کہ ماڈل نے معیار کو مقدار سے زیادہ اہمیت دینا سیکھا۔ نتیجہ؟ جوابات جو عین مطابق اور بامقصد دونوں ہیں۔
جب AI ماڈلز ترجیحات سے سیکھتے ہیں (کون سا ردعمل بہتر ہے، A یا B؟)، تو وہ مایوس کن تعصب پیدا کرتے ہیں: وہ سوچنا شروع کر دیتے ہیں کہ طویل جوابات ہمیشہ بہتر ہوتے ہیں۔ ایسا ہی ہے کہ وہ اچھی باتیں کہنے کے بجائے زیادہ کہہ کر جیتنے کی کوشش کر رہے ہیں۔
لمبائی کے لحاظ سے نارملائزڈ DPO ماڈل ترجیحات سے سیکھنے کے طریقے کو ایڈجسٹ کرکے اسے ٹھیک کرتا ہے۔ صرف یہ دیکھنے کے بجائے کہ کس جواب کو ترجیح دی گئی ہے، یہ ہر جواب کی لمبائی کو مدنظر رکھتا ہے۔ اس کے بارے میں سوچیں کہ ان کے فی لفظ کے معیار کے مطابق جوابات کا اندازہ لگانا، نہ صرف ان کے مجموعی اثر سے۔
اس سے فرق کیوں پڑتا ہے؟ کیونکہ یہ Tülu 3 کو درست اور موثر ہونا سیکھنے میں مدد کرتا ہے۔ زیادہ جامع نظر آنے کے لیے اضافی الفاظ کے ساتھ جوابات کو پیڈ کرنے کے بجائے، یہ حقیقت میں جس لمبائی کی ضرورت ہو اس میں قدر فراہم کرنا سیکھتا ہے۔
یہ ایک چھوٹی سی تفصیل کی طرح لگتا ہے، لیکن یہ قدرتی طور پر بات چیت کرنے والی AI بنانے کے لیے بہت ضروری ہے۔ بہترین انسانی ماہرین جانتے ہیں کہ کب مختصر ہونا ہے اور کب وضاحت کرنا ہے – اور یہ بالکل وہی ہے جس کی لمبائی-نارملائزڈ DPO ماڈل کو سکھانے میں مدد کرتا ہے۔
مرحلہ 4: RLVR انوویشن
یہ تکنیکی پیش رفت ہے جو توجہ کا مستحق ہے۔ RLVR ٹھوس توثیق کے ساتھ موضوعی انعامی ماڈلز کی جگہ لے لیتا ہے۔
زیادہ تر AI ماڈلز ریوارڈ ماڈلز کے ایک پیچیدہ نظام کے ذریعے سیکھتے ہیں - بنیادی طور پر پڑھے لکھے اندازے اس بارے میں کہ کیا اچھا ردعمل ہوتا ہے۔ لیکن ایلن AI نے RLVR کے ساتھ ایک مختلف راستہ اختیار کیا۔
اس بارے میں سوچیں کہ ہم فی الحال AI ماڈلز کو کس طرح تربیت دیتے ہیں۔ ہمیں عام طور پر یہ فیصلہ کرنے کے لیے دوسرے AI ماڈلز (جنہیں ریوارڈ ماڈل کہا جاتا ہے) کی ضرورت ہوتی ہے کہ آیا جواب اچھا ہے یا نہیں۔ یہ ساپیکش، پیچیدہ اور اکثر متضاد ہے۔ کچھ جوابات اچھے لگ سکتے ہیں لیکن ان میں ٹھیک ٹھیک غلطیاں ہیں جو پھسل جاتی ہیں۔
RLVR اس نقطہ نظر کو اپنے سر پر پلٹتا ہے۔ موضوعی فیصلوں پر بھروسہ کرنے کے بجائے، یہ ٹھوس، قابل تصدیق نتائج کا استعمال کرتا ہے۔ جب ماڈل ریاضی کے مسئلے کی کوشش کرتا ہے، تو کوئی گرے ایریا نہیں ہوتا ہے – جواب یا تو صحیح ہے یا غلط۔ جب یہ کوڈ لکھتا ہے تو وہ کوڈ یا تو صحیح چلتا ہے یا نہیں چلتا۔
یہ وہ جگہ ہے جہاں یہ دلچسپ ہو جاتا ہے:
- ماڈل کو فوری، بائنری فیڈ بیک ملتا ہے: درست جوابات کے لیے 10 پوائنٹس، غلط جوابات کے لیے 0
- جزوی کریڈٹ یا مبہم تشخیص کی کوئی گنجائش نہیں ہے۔
- سیکھنا مرکوز اور عین مطابق ہو جاتا ہے۔
- ماڈل قابل فہم آواز والے لیکن غلط جوابات پر درستگی کو ترجیح دینا سیکھتا ہے

RLVR ٹریننگ (ایلن AI)
نتائج؟ Tülu 3 نے ان کاموں میں نمایاں بہتری دکھائی جہاں درستگی سب سے زیادہ اہمیت رکھتی ہے۔ ریاضیاتی استدلال (GSM8K بینچ مارک) اور کوڈنگ چیلنجز پر اس کی کارکردگی میں نمایاں اضافہ ہوا۔ یہاں تک کہ اس کی ہدایات کی پیروی زیادہ درست ہو گئی کیونکہ ماڈل نے تخمینی ردعمل کے مقابلے میں ٹھوس درستگی کی قدر کرنا سیکھا۔
جو چیز اسے خاص طور پر دلچسپ بناتی ہے وہ یہ ہے کہ یہ اوپن سورس AI کے لیے گیم کو کس طرح تبدیل کرتا ہے۔ پچھلے نقطہ نظر اکثر تکنیکی کاموں پر بند ماڈل کی درستگی سے ملنے کے لئے جدوجہد کرتے تھے۔ RLVR سے پتہ چلتا ہے کہ صحیح تربیتی نقطہ نظر کے ساتھ، اوپن سورس ماڈل اسی سطح کی وشوسنییتا حاصل کر سکتے ہیں۔
نمبروں پر ایک نظر۔
Tülu 405 کا 3B پیرامیٹر ورژن میدان میں ٹاپ ماڈلز سے براہ راست مقابلہ کرتا ہے۔ آئیے ہم جائزہ لیں کہ یہ کہاں سے بہتر ہے اور اوپن سورس AI کے لیے اس کا کیا مطلب ہے۔
ریاضی
Tülu 3 پیچیدہ ریاضیاتی استدلال پر سبقت لے جاتا ہے۔ GSM8K اور MATH جیسے بینچ مارکس پر، یہ DeepSeek کی کارکردگی سے میل کھاتا ہے۔ ماڈل کثیر مرحلہ مسائل کو ہینڈل کرتا ہے اور مضبوط ریاضیاتی استدلال کی صلاحیتوں کو ظاہر کرتا ہے۔
ضابطے
کوڈنگ کے نتائج بھی اتنے ہی متاثر کن ثابت ہوتے ہیں۔ RLVR ٹریننگ کا شکریہ، Tülu 3 کوڈ لکھتا ہے جو مسائل کو مؤثر طریقے سے حل کرتا ہے۔ اس کی طاقت کوڈنگ ہدایات کو سمجھنے اور فعال حل تیار کرنے میں ہے۔
عین مطابق ہدایات کے بعد
ماڈل کی ہدایات پر عمل کرنے کی صلاحیت بنیادی طاقت کے طور پر سامنے آتی ہے۔ جب کہ بہت سے ماڈل ہدایات کا تخمینہ لگاتے ہیں یا اسے عام کرتے ہیں، Tülu 3 بالکل وہی جو پوچھا جاتا ہے اس پر عمل کرنے میں قابل ذکر درستگی کا مظاہرہ کرتا ہے۔
اے آئی ڈیولپمنٹ کا بلیک باکس کھولنا
ایلن اے آئی نے ایک طاقتور ماڈل اور ان کی مکمل ترقی کے عمل دونوں کو جاری کیا۔
تربیتی عمل کا ہر پہلو دستاویزی اور قابل رسائی ہے۔ ڈیٹا کی تیاری کے طریقوں اور RLVR کے نفاذ تک چار مراحل کے نقطہ نظر سے - پورا عمل مطالعہ اور نقل کے لیے کھلا ہے۔ یہ شفافیت اعلیٰ کارکردگی والے AI کی ترقی میں ایک نیا معیار قائم کرتی ہے۔
ڈویلپرز جامع وسائل حاصل کرتے ہیں:
- ٹریننگ پائپ لائنز مکمل کریں۔
- ڈیٹا پروسیسنگ ٹولز
- تشخیص کے فریم ورک
- نفاذ کی وضاحتیں
یہ ٹیموں کو قابل بناتا ہے:
- تربیت کے عمل میں ترمیم کریں۔
- مخصوص ضروریات کے لئے طریقوں کو اپنائیں
- ثابت شدہ طریقوں پر تعمیر کریں۔
- خصوصی نفاذات بنائیں
یہ کھلا نقطہ نظر پورے میدان میں جدت کو تیز کرتا ہے۔ محققین تصدیق شدہ طریقوں پر تعمیر کر سکتے ہیں، جبکہ ڈویلپرز صفر سے شروع کرنے کے بجائے بہتری پر توجہ مرکوز کر سکتے ہیں۔
اوپن سورس ایکسی لینس کا عروج
Tülu 3 کی کامیابی اوپن اے آئی ڈیولپمنٹ کے لیے ایک بڑا لمحہ ہے۔ جب اوپن سورس ماڈلز نجی متبادلات سے ملتے ہیں یا اس سے زیادہ ہیں۔، یہ بنیادی طور پر صنعت کو تبدیل کرتا ہے۔ دنیا بھر میں تحقیقی ٹیمیں ثابت شدہ طریقوں تک رسائی حاصل کرتی ہیں، اپنے کام کو تیز کرتی ہیں اور نئی اختراعات کو جنم دیتی ہیں۔ نجی AI لیبز کو اپنانے کی ضرورت ہوگی - یا تو شفافیت بڑھا کر یا تکنیکی حدود کو مزید آگے بڑھا کر۔
آگے دیکھتے ہوئے، Tülu 3 کی کامیابیاں قابل تصدیق انعامات اور ملٹی اسٹیج ٹریننگ اس بات کی طرف اشارہ کرتی ہیں کہ کیا آنے والا ہے۔ ٹیمیں ان بنیادوں پر استوار کر سکتی ہیں، ممکنہ طور پر کارکردگی کو اور بھی بلند کر سکتی ہیں۔ کوڈ موجود ہے، طریقے دستاویزی ہیں، اور AI کی ترقی کی ایک نئی لہر شروع ہو گئی ہے۔ ڈویلپرز اور محققین کے لیے، ان طریقوں کے ساتھ تجربہ کرنے اور ان میں بہتری لانے کا موقع AI کی ترقی میں ایک دلچسپ باب کا آغاز کرتا ہے۔
Tülu 3 کے بارے میں اکثر پوچھے گئے سوالات (FAQ)
Tülu 3 کیا ہے اور اس کی اہم خصوصیات کیا ہیں؟
Tülu 3 اوپن سورس LLMs کا ایک خاندان ہے جسے ایلن AI نے تیار کیا ہے، جسے Llama 3.1 فن تعمیر پر بنایا گیا ہے۔ یہ مختلف سائز (8B، 70B، اور 405B پیرامیٹرز) میں آتا ہے۔ Tülu 3 کو علم، استدلال، ریاضی، کوڈنگ، ہدایات کی پیروی، اور حفاظت سمیت متنوع کاموں میں بہتر کارکردگی کے لیے ڈیزائن کیا گیا ہے۔
Tülu 3 کی تربیت کا عمل کیا ہے اور کون سا ڈیٹا استعمال کیا جاتا ہے؟
Tülu 3 کی تربیت میں کئی اہم مراحل شامل ہیں۔ سب سے پہلے، ٹیم عوامی ڈیٹاسیٹس اور مخصوص مہارتوں کو ہدف بنائے گئے مصنوعی ڈیٹا دونوں سے پرامپٹس کا ایک متنوع سیٹ تیار کرتی ہے، اس بات کو یقینی بناتے ہوئے کہ ڈیٹا کو بینچ مارکس کے خلاف آلودگی سے پاک کیا جائے۔ دوسرا، زیر نگرانی فائن ٹیوننگ (SFT) ہدایات کی پیروی، ریاضی، اور کوڈنگ ڈیٹا کے مرکب پر کی جاتی ہے۔ اس کے بعد، براہ راست ترجیحی اصلاح (DPO) کو انسانی اور LLM فیڈ بیک کے ذریعے تیار کردہ ترجیحی ڈیٹا کے ساتھ استعمال کیا جاتا ہے۔ آخر میں، قابل تصدیق انعامات (RLVR) کے ساتھ Reinforcement Learning کا استعمال قابل پیمائش درستگی والے کاموں کے لیے کیا جاتا ہے۔ Tülu 3 ہر مرحلے کے لیے کیوریٹڈ ڈیٹا سیٹس کا استعمال کرتا ہے، بشمول شخصیت سے چلنے والی ہدایات، ریاضی، اور کوڈ ڈیٹا۔
Tülu 3 حفاظت سے کیسے رجوع کرتا ہے اور اس کا جائزہ لینے کے لیے کون سے میٹرکس استعمال کیے جاتے ہیں؟
حفاظت Tülu 3 کی ترقی کا ایک بنیادی جز ہے، جس پر تربیت کے پورے عمل میں توجہ دی جاتی ہے۔ SFT کے دوران ایک حفاظتی مخصوص ڈیٹاسیٹ استعمال کیا جاتا ہے، جو دوسرے ٹاسک پر مبنی ڈیٹا کے لیے زیادہ تر آرتھوگونل پایا جاتا ہے۔
RLVR کیا ہے؟
RLVR ایک تکنیک ہے جہاں ماڈل کو قابل تصدیق انعام کے خلاف بہتر بنانے کی تربیت دی جاتی ہے، جیسے کہ جواب کی درستگی۔ یہ روایتی RLHF سے مختلف ہے جو انعامی ماڈل استعمال کرتا ہے۔