ہمارے ساتھ رابطہ

جنریٹو AI: CHATGPT، Dall-E، Mid Journey اور مزید کے پیچھے آئیڈیا

مصنوعی ذہانت

جنریٹو AI: CHATGPT، Dall-E، Mid Journey اور مزید کے پیچھے آئیڈیا

mm
جنریٹیو AI - مڈجرنی پرامپٹ

آرٹ، کمیونیکیشن، اور ہم حقیقت کو کس طرح سمجھتے ہیں کی دنیا تیزی سے تبدیل ہو رہی ہے۔ اگر ہم انسانی اختراع کی تاریخ پر نظر دوڑائیں تو شاید ہم پہیے کی ایجاد یا بجلی کی دریافت کو یادگار چھلانگ سمجھیں۔ آج، ایک نیا انقلاب برپا ہو رہا ہے - انسانی تخلیقی صلاحیتوں اور مشینی حساب کے درمیان فرق کو ختم کرنا۔ یہ جنریٹو اے آئی ہے۔

جنریٹو ماڈلز نے انسانوں اور مشینوں کے درمیان لائن کو دھندلا کر دیا ہے۔ GPT-4 جیسے ماڈلز کی آمد کے ساتھ، جو ٹرانسفارمر ماڈیولز کا استعمال کرتے ہیں، ہم قدرتی اور سیاق و سباق سے بھرپور زبان کی تخلیق کے قریب پہنچ چکے ہیں۔ ان ترقیوں نے دستاویز کی تخلیق، چیٹ بوٹ ڈائیلاگ سسٹم، اور یہاں تک کہ مصنوعی موسیقی کی تشکیل میں ایپلی کیشنز کو ایندھن دیا ہے۔

بگ ٹیک کے حالیہ فیصلے اس کی اہمیت کو واضح کرتے ہیں۔ مائیکروسافٹ پہلے ہی ہے۔ اس کی Cortana ایپ کو بند کر رہا ہے۔ اس مہینے میں بنگ چیٹ جیسی نئی جنریٹو اے آئی ایجادات کو ترجیح دینے کے لیے۔ ایپل نے بھی اپنا ایک اہم حصہ وقف کیا ہے۔ $22.6 بلین R&D بجٹ جیسا کہ سی ای او ٹِم کُک نے اشارہ کیا ہے۔

ماڈلز کا ایک نیا دور: جنریٹو بمقابلہ۔ امتیازی

جنریٹو اے آئی کی کہانی نہ صرف اس کے استعمال کے بارے میں ہے بلکہ بنیادی طور پر اس کے اندرونی کاموں کے بارے میں ہے۔ مصنوعی ذہانت کے ماحولیاتی نظام میں، دو ماڈلز موجود ہیں: امتیازی اور تخلیقی۔

امتیازی نمونے وہ ہیں جن کا سامنا زیادہ تر لوگ روزمرہ کی زندگی میں کرتے ہیں۔ یہ الگورتھم ان پٹ ڈیٹا لیتے ہیں، جیسے کہ متن یا تصویر، اور اسے ٹارگٹ آؤٹ پٹ کے ساتھ جوڑتے ہیں، جیسے کہ لفظ کا ترجمہ یا طبی تشخیص۔ وہ نقشہ سازی اور پیشین گوئی کے بارے میں ہیں۔

دوسری طرف جنریٹیو ماڈل تخلیق کار ہیں۔ وہ صرف تشریح یا پیشین گوئی نہیں کرتے؛ وہ اعداد کے ویکٹر سے نئے، پیچیدہ نتائج پیدا کرتے ہیں جو اکثر حقیقی دنیا کی اقدار سے متعلق بھی نہیں ہوتے ہیں۔

 

جنریٹیو اے آئی کی اقسام: ٹیکسٹ ٹو ٹیکسٹ، ٹیکسٹ ٹو امیج (GPT، DALL-E، Mid Journey)

جنریٹو ماڈلز کے پیچھے ٹیکنالوجیز

جنریٹو ماڈلز اپنے وجود کا مرہون منت ہیں گہرے اعصابی نیٹ ورکس، نفیس ڈھانچے جو انسانی دماغ کی فعالیت کی نقل کرنے کے لیے بنائے گئے ہیں۔ ڈیٹا میں کثیر جہتی تغیرات کی گرفت اور پروسیسنگ کے ذریعے، یہ نیٹ ورک متعدد تخلیقی ماڈلز کی ریڑھ کی ہڈی کے طور پر کام کرتے ہیں۔

یہ تخلیقی ماڈل کیسے زندگی میں آتے ہیں؟ عام طور پر، وہ گہرے نیورل نیٹ ورکس کے ساتھ بنائے جاتے ہیں، جو ڈیٹا میں کثیر جہتی تغیرات کو حاصل کرنے کے لیے بہتر بنائے جاتے ہیں۔ ایک اہم مثال ہے جنریٹیو ایڈورسریل نیٹ ورک (GAN)، جہاں دو عصبی نیٹ ورکس، جنریٹر، اور امتیاز کرنے والے، استاد اور طالب علم کے منفرد رشتے میں ایک دوسرے سے مقابلہ کرتے اور سیکھتے ہیں۔ پینٹنگز سے لے کر اسٹائل ٹرانسفر تک، میوزک کمپوزیشن سے لے کر گیم پلےنگ تک، یہ ماڈل ان طریقوں سے تیار اور پھیل رہے ہیں جن کا پہلے تصور بھی نہیں کیا جا سکتا تھا۔

یہ GANs کے ساتھ نہیں رکتا ہے۔ تغیراتی آٹو اینکوڈرز (VAEs)، جنریٹو ماڈل فیلڈ میں ایک اور اہم کھلاڑی ہیں۔ VAEs بظاہر بے ترتیب نمبروں سے فوٹو ریئلسٹک تصاویر بنانے کی اپنی صلاحیت کے لیے نمایاں ہیں۔ کیسے؟ ان نمبروں کو ایک اویکت ویکٹر کے ذریعے پروسیس کرنے سے آرٹ کو جنم ملتا ہے جو انسانی جمالیات کی پیچیدگیوں کا آئینہ دار ہوتا ہے۔

جنریٹیو اے آئی کی اقسام: متن سے متن، متن سے تصویر

ٹرانسفارمرز اور ایل ایل ایم

کاغذ "توجہ صرف آپ کی ضرورت ہے۔گوگل کے دماغ نے ٹیکسٹ ماڈلنگ کے بارے میں ہمارے سوچنے کے انداز میں تبدیلی کی نشاندہی کی۔ ریکرنٹ نیورل نیٹ ورکس (RNNs) یا Convolutional Neural Networks (CNNs) جیسے پیچیدہ اور ترتیب وار فن تعمیر کی بجائے، ٹرانسفارمر ماڈل نے توجہ کا تصور متعارف کرایا، جس کا بنیادی مطلب سیاق و سباق کے لحاظ سے ان پٹ ٹیکسٹ کے مختلف حصوں پر توجہ مرکوز کرنا تھا۔ اس کے اہم فوائد میں سے ایک متوازی کی آسانی تھی۔ RNNs کے برعکس جو متن کو ترتیب وار پروسیس کرتے ہیں، جس سے انہیں پیمانہ کرنا مشکل ہو جاتا ہے، ٹرانسفارمرز متن کے کچھ حصوں کو بیک وقت پروسیس کر سکتے ہیں، جس سے بڑے ڈیٹا سیٹس پر تربیت کو تیز تر اور زیادہ موثر بنایا جا سکتا ہے۔

ایک طویل متن میں، ہر لفظ یا جملہ جو آپ پڑھتے ہیں یکساں اہمیت نہیں رکھتے۔ کچھ حصے سیاق و سباق کی بنیاد پر زیادہ توجہ مانگتے ہیں۔ مطابقت کی بنیاد پر ہماری توجہ کو منتقل کرنے کی یہ صلاحیت وہی ہے جس کی توجہ کا طریقہ کار نقل کرتا ہے۔

اس کو سمجھنے کے لیے، ایک جملہ کے بارے میں سوچیں: "Unite AI Publish AI and Robotics news." اب، اگلے لفظ کی پیشین گوئی کرنے کے لیے اس بات کو سمجھنے کی ضرورت ہے کہ پچھلے سیاق و سباق میں کیا اہمیت رکھتا ہے۔ 'روبوٹکس' کی اصطلاح تجویز کر سکتی ہے کہ اگلا لفظ روبوٹکس کے شعبے میں کسی خاص پیشرفت یا واقعے سے متعلق ہو سکتا ہے، جب کہ 'شائع کریں' مندرجہ ذیل سیاق و سباق کی طرف اشارہ کر سکتا ہے جو کہ کسی حالیہ اشاعت یا مضمون میں شامل ہو سکتا ہے۔

ڈیمو جملے پر خود توجہ دینے کے طریقہ کار کی وضاحت
خود توجہ کی مثال

ٹرانسفارمرز میں توجہ دینے کا طریقہ کار اس منتخب توجہ کو حاصل کرنے کے لیے بنایا گیا ہے۔ وہ ان پٹ ٹیکسٹ کے مختلف حصوں کی اہمیت کا اندازہ لگاتے ہیں اور فیصلہ کرتے ہیں کہ جواب پیدا کرتے وقت "دیکھنا" کہاں ہے۔ یہ RNNs جیسے پرانے فن تعمیرات سے رخصتی ہے جس نے تمام ان پٹ ٹیکسٹ کے جوہر کو ایک ہی 'ریاست' یا 'میموری' میں شامل کرنے کی کوشش کی۔

توجہ کے کام کو کلیدی قدر کی بازیافت کے نظام سے تشبیہ دی جا سکتی ہے۔ کسی جملے میں اگلے لفظ کی پیشین گوئی کرنے کی کوشش میں، ہر ایک سابقہ ​​لفظ ایک 'کلید' پیش کرتا ہے جو اس کی ممکنہ مطابقت کی تجویز کرتا ہے، اور اس بنیاد پر کہ یہ کلیدیں موجودہ سیاق و سباق (یا استفسار) سے کتنی اچھی طرح میل کھاتی ہیں، وہ پیشین گوئی میں 'قدر' یا وزن کا حصہ ڈالتے ہیں۔

یہ جدید ترین AI ڈیپ لرننگ ماڈلز بغیر کسی رکاوٹ کے مختلف ایپلی کیشنز میں ضم ہو گئے ہیں، BERT کے ساتھ Google کے سرچ انجن میں اضافہ سے لے کر GitHub کے Copilot تک، جو کہ بڑے لینگویج ماڈلز (LLMs) کی صلاحیت کو استعمال کرتے ہیں تاکہ سادہ کوڈ کے ٹکڑوں کو مکمل طور پر فعال سورس کوڈز میں تبدیل کر سکیں۔

بڑے لینگویج ماڈلز (LLMs) جیسے GPT-4، Bard، اور LLaMA، انسانی زبان، کوڈ، اور بہت کچھ کو سمجھنے اور تخلیق کرنے کے لیے ڈیزائن کیے گئے زبردست تعمیرات ہیں۔ ان کا بہت بڑا سائز، اربوں سے لے کر کھربوں پیرامیٹرز تک، وضاحتی خصوصیات میں سے ایک ہے۔ ان LLMs کو متناسب ڈیٹا کی بھر پور مقدار فراہم کی جاتی ہے، جس سے وہ انسانی زبان کی پیچیدگیوں کو سمجھنے کے قابل ہوتے ہیں۔ ان ماڈلز کی ایک نمایاں خصوصیت ان کی قابلیت ہے "چند شاٹ"سیکھنا. روایتی ماڈلز کے برعکس جن کے لیے مخصوص تربیتی ڈیٹا کی بڑی مقدار کی ضرورت ہوتی ہے، ایل ایل ایم بہت محدود تعداد میں مثالوں (یا "شاٹس") سے عام کر سکتے ہیں۔

2023 کے وسط کے بعد تک بڑی زبان کے ماڈلز (LLMs) کی حالت

ماڈل کا نام ڈیولپر پیرامیٹر دستیابی اور رسائی قابل ذکر خصوصیات اور ریمارکس
GPT-4 اوپنائی 1.5 ٹریلین اوپن سورس نہیں، صرف API رسائی مختلف کاموں پر متاثر کن کارکردگی تصاویر اور متن پر کارروائی کر سکتی ہے، زیادہ سے زیادہ ان پٹ کی لمبائی 32,768 ٹوکن
GPT-3 اوپنائی 175 ارب اوپن سورس نہیں، صرف API رسائی چند شاٹ اور زیرو شاٹ سیکھنے کی صلاحیتوں کا مظاہرہ کیا۔ قدرتی زبان میں متن کی تکمیل کرتا ہے۔
بلوم بگ سائنس 176 ارب ڈاؤن لوڈ کے قابل ماڈل، میزبان API دستیاب ہے۔ عالمی تعاون سے تیار کردہ کثیر لسانی LLM۔ 13 پروگرامنگ زبانوں کی حمایت کرتا ہے۔
لا ایم ڈی اے گوگل 173 ارب اوپن سورس نہیں، کوئی API یا ڈاؤن لوڈ نہیں۔ مکالمے پر تربیت یافتہ شخص عملی طور پر کسی بھی چیز کے بارے میں بات کرنا سیکھ سکتا ہے۔
MT-NLG Nvidia/Microsoft 530 ارب ایپلیکیشن کے ذریعہ API تک رسائی مختلف NLP کاموں کے لیے ٹرانسفارمر پر مبنی Megatron فن تعمیر کا استعمال کرتا ہے۔
لاما میٹا اے آئی 7B سے 65B) ایپلی کیشن کے ذریعہ ڈاؤن لوڈ کے قابل تحقیق، حکومت اور اکیڈمی میں ان لوگوں تک رسائی کی پیشکش کرکے AI کو جمہوری بنانا ہے۔

ایل ایل ایم کیسے استعمال ہوتے ہیں؟

LLMs کو متعدد طریقوں سے استعمال کیا جا سکتا ہے، بشمول:

  1. براہ راست استعمال: ٹیکسٹ جنریشن یا پروسیسنگ کے لیے صرف پہلے سے تربیت یافتہ LLM استعمال کرنا۔ مثال کے طور پر، بغیر کسی اضافی فائن ٹیوننگ کے بلاگ پوسٹ لکھنے کے لیے GPT-4 استعمال کرنا۔
  2. فائن ٹیوننگ: ایک مخصوص کام کے لیے پہلے سے تربیت یافتہ ایل ایل ایم کو اپنانا، ایک طریقہ جسے ٹرانسفر لرننگ کہا جاتا ہے۔ ایک مثال مخصوص صنعت میں دستاویزات کے لیے خلاصے بنانے کے لیے T5 کو حسب ضرورت بنانا ہے۔
  3. معلومات کی بازیافت: LLMs کا استعمال، جیسے BERT یا GPT، بڑے فن تعمیر کے حصے کے طور پر ایسے نظام تیار کرنے کے لیے جو معلومات حاصل کر سکیں اور ان کی درجہ بندی کر سکیں۔
جنریٹو AI ChatGPT فائن ٹیوننگ
چیٹ جی پی ٹی فائن ٹیوننگ آرکیٹیکچر

ملٹی ہیڈ توجہ: ایک کیوں جب آپ کے پاس کئی ہو سکتے ہیں؟

تاہم، واحد توجہ کے طریقہ کار پر انحصار محدود ہو سکتا ہے۔ متن میں مختلف الفاظ یا ترتیب میں مختلف قسم کی مطابقت یا ایسوسی ایشن ہوسکتی ہے۔ یہ وہ جگہ ہے جہاں ملٹی ہیڈ توجہ آتی ہے۔ توجہ کے وزن کے ایک سیٹ کے بجائے، ملٹی ہیڈ توجہ متعدد سیٹوں کو استعمال کرتی ہے، جس سے ماڈل ان پٹ ٹیکسٹ میں مختلف قسم کے رشتوں کو حاصل کر سکتا ہے۔ ہر توجہ "سر" ان پٹ کے مختلف حصوں یا پہلوؤں پر توجہ مرکوز کر سکتی ہے، اور ان کے مشترکہ علم کو حتمی پیشین گوئی کے لیے استعمال کیا جاتا ہے۔

ChatGPT: سب سے زیادہ مقبول جنریٹو AI ٹول

2018 میں GPT کے آغاز کے ساتھ، ماڈل کو بنیادی طور پر 12 تہوں، 12 توجہ کے سروں، اور 120 ملین پیرامیٹرز کی بنیاد پر بنایا گیا تھا، جو بنیادی طور پر BookCorpus نامی ڈیٹا سیٹ پر تربیت یافتہ تھا۔ یہ ایک متاثر کن آغاز تھا، جو زبان کے ماڈلز کے مستقبل کی ایک جھلک پیش کرتا ہے۔

GPT-2، جس کی 2019 میں نقاب کشائی کی گئی، نے تہوں اور توجہ کے سروں میں چار گنا اضافہ کا دعویٰ کیا۔ اہم بات یہ ہے کہ اس کے پیرامیٹر کی تعداد 1.5 بلین تک پہنچ گئی۔ اس بہتر ورژن نے اپنی تربیت WebText سے حاصل کی ہے، ایک ڈیٹاسیٹ جس میں مختلف Reddit لنکس سے 40GB متن سے مالا مال ہے۔

GPT-3، مئی 2020 میں لانچ کیا گیا، اس میں 96 تہوں، 96 توجہ کے سر، اور 175 بلین کے بڑے پیرامیٹر کی گنتی تھی۔ GPT-3 کو جس چیز نے الگ کیا وہ اس کا متنوع تربیتی ڈیٹا تھا، جس میں کامن کرول، ویب ٹیکسٹ، انگلش ویکیپیڈیا، بک کارپورا، اور دیگر ذرائع شامل تھے، جو کہ مجموعی طور پر 570 جی بی کے لیے تھے۔

چیٹ جی پی ٹی کے کام کی پیچیدگیاں ایک خفیہ راز ہیں۔ تاہم، 'انسانی تاثرات سے کمک سیکھنے' (RLHF) کے نام سے ایک عمل اہم سمجھا جاتا ہے۔ پہلے کے ChatGPT پروجیکٹ سے شروع ہونے والی، یہ تکنیک GPT-3.5 ماڈل کو تحریری ہدایات کے ساتھ مزید ہم آہنگ کرنے میں اہم کردار ادا کرتی تھی۔

چیٹ جی پی ٹی کی تربیت تین درجوں پر مشتمل ہے:

  1. زیر نگرانی فائن ٹیوننگ: بنیادی GPT-3.5 ماڈل کو بہتر بنانے کے لیے انسانی تحریری بات چیت کے ان پٹس اور آؤٹ پٹس کو درست کرنا شامل ہے۔
  2. ریوارڈ ماڈلنگ: انسان مختلف ماڈل آؤٹ پٹس کو معیار کی بنیاد پر درجہ بندی کرتے ہیں، ایک انعامی ماڈل کو تربیت دینے میں مدد کرتے ہیں جو گفتگو کے سیاق و سباق کو مدنظر رکھتے ہوئے ہر آؤٹ پٹ کو اسکور کرتا ہے۔
  3. کمک سیکھنے: بات چیت کا سیاق و سباق ایک پس منظر کے طور پر کام کرتا ہے جہاں بنیادی ماڈل ایک ردعمل کی تجویز کرتا ہے۔ اس ردعمل کا اندازہ انعام کے ماڈل سے کیا جاتا ہے، اور پروکسیمل پالیسی آپٹیمائزیشن (PPO) نامی الگورتھم کا استعمال کرتے ہوئے اس عمل کو بہتر بنایا جاتا ہے۔

ان لوگوں کے لیے جو صرف ChatGPT میں انگلیوں کو ڈبو رہے ہیں، ایک جامع ابتدائی گائیڈ مل سکتی ہے۔ یہاں. اگر آپ چیٹ جی پی ٹی کے ساتھ پرامپٹ انجینئرنگ میں مزید گہرائی میں جانے کے خواہاں ہیں، تو ہمارے پاس ایک جدید گائیڈ بھی ہے جو جدید ترین اور جدید ترین پرامپٹ تکنیکوں پر روشنی ڈالتی ہے، جو 'پر دستیاب ہے۔چیٹ جی پی ٹی اور ایڈوانسڈ پرامپٹ انجینئرنگ: اے آئی ارتقاء کو چلانا'.

بازی اور ملٹی موڈل ماڈلز

جب کہ VAEs اور GANs جیسے ماڈلز ایک ہی پاس کے ذریعے اپنے آؤٹ پٹ تیار کرتے ہیں، اس لیے وہ جو کچھ بھی پیدا کرتے ہیں اس میں بند ہوجاتے ہیں، ڈفیوژن ماڈلز نے 'کا تصور متعارف کرایا ہے۔تکراری تطہیر' اس طریقہ کے ذریعے، وہ پیچھے چکر لگاتے ہیں، پچھلے مراحل سے غلطیوں کو بہتر کرتے ہیں، اور آہستہ آہستہ ایک زیادہ چمکدار نتیجہ پیدا کرتے ہیں۔

بازی ماڈل کا مرکزی فن ہے "کرپشن"اور "تطہیر"۔ ان کے تربیتی مرحلے میں، مختلف سطحوں کے شور کو جوڑ کر ایک عام تصویر کو آہستہ آہستہ خراب کیا جاتا ہے۔ پھر یہ شور والا ورژن ماڈل کو کھلایا جاتا ہے، جو اسے 'ڈینوائز' یا 'ڈی کرپٹ' کرنے کی کوشش کرتا ہے۔ اس کے متعدد راؤنڈز کے ذریعے، ماڈل بحالی میں ماہر ہو جاتا ہے، ایک اہم لطیف دونوں باتوں کو سمجھتا ہے۔

جنریٹیو AI - مڈجرنی پرامپٹ
Midjourney سے بنائی گئی تصویر

تربیت کے بعد نئی تصاویر بنانے کا عمل دلچسپ ہے۔ مکمل طور پر بے ترتیب ان پٹ کے ساتھ شروع کرتے ہوئے، ماڈل کی پیشین گوئیوں کا استعمال کرتے ہوئے اسے مسلسل بہتر کیا جاتا ہے۔ ارادہ یہ ہے کہ قدموں کی کم از کم تعداد کے ساتھ ایک قدیم تصویر حاصل کی جائے۔ بدعنوانی کی سطح کو کنٹرول کرنا ایک "شور شیڈول" کے ذریعے کیا جاتا ہے، یہ ایک طریقہ کار ہے جو مختلف مراحل پر کتنا شور لگاتا ہے۔ ایک شیڈولر، جیسا کہ لائبریریوں میں دیکھا جاتا ہے جیسے "پھیلاؤ"، قائم کردہ الگورتھم کی بنیاد پر ان شور شرابے کی نوعیت کا تعین کرتا ہے۔

بہت سے بازی ماڈلز کے لیے ایک ضروری تعمیراتی ریڑھ کی ہڈی ہے۔ یونٹ- ایک کنولوشنل نیورل نیٹ ورک ان کاموں کے لیے تیار کیا گیا ہے جس کے لیے آؤٹ پٹ کی ضرورت ہوتی ہے جس کے لیے آدانوں کی مقامی جہت کی عکاسی ہوتی ہے۔ یہ ڈاون سیمپلنگ اور اپ سیمپلنگ لیئرز کا امتزاج ہے، جو ہائی ریزولوشن ڈیٹا کو برقرار رکھنے کے لیے پیچیدہ طور پر جڑی ہوئی ہے، جو امیج سے متعلق آؤٹ پٹ کے لیے اہم ہے۔

جنریٹیو ماڈلز، OpenAI کے دائرے میں گہرائی میں جانا DALL-E2 متنی اور بصری AI صلاحیتوں کے امتزاج کی ایک روشن مثال کے طور پر ابھرتا ہے۔ یہ تین ٹائرڈ ڈھانچے کو ملازمت دیتا ہے:

DALL-E 2 تین گنا فن تعمیر کی نمائش کرتا ہے:

  1. ٹیکسٹ انکوڈر: یہ ٹیکسٹ پرامپٹ کو ایک اویکت جگہ کے اندر تصوراتی سرایت میں بدل دیتا ہے۔ یہ ماڈل زمینی صفر سے شروع نہیں ہوتا ہے۔ یہ OpenAI کی متضاد زبان – امیج پری ٹریننگ (کلپاس کی بنیاد کے طور پر ڈیٹاسیٹ۔ CLIP قدرتی زبان کا استعمال کرتے ہوئے بصری تصورات کو سیکھ کر بصری اور متنی ڈیٹا کے درمیان ایک پل کا کام کرتا ہے۔ متضاد سیکھنے کے طور پر جانا جاتا ایک طریقہ کار کے ذریعے، یہ تصاویر کو ان کی متعلقہ متنی وضاحتوں کے ساتھ شناخت کرتا ہے اور ان سے میل کھاتا ہے۔
  2. پہلے: انکوڈر سے اخذ کردہ ٹیکسٹ ایمبیڈنگ کو پھر امیج ایمبیڈنگ میں تبدیل کیا جاتا ہے۔ DALL-E 2 نے اس کام کے لیے خود بخود اور بازی دونوں طریقوں کا تجربہ کیا، جس میں بعد میں اعلیٰ نتائج کی نمائش کی گئی۔ Autoregressive ماڈلز، جیسا کہ Transformers اور PixelCNN میں دیکھا گیا ہے، ترتیب میں آؤٹ پٹ پیدا کرتے ہیں۔ دوسری طرف، ڈفیوژن ماڈلز، جیسا کہ DALL-E 2 میں استعمال کیا جاتا ہے، ٹیکسٹ ایمبیڈنگز کی مدد سے بے ترتیب شور کو پیش گوئی شدہ امیج ایمبیڈنگز میں تبدیل کرتے ہیں۔
  3. ڈیکوڈر: عمل کا کلائمکس، یہ حصہ ٹیکسٹ پرامپٹ کی بنیاد پر حتمی بصری آؤٹ پٹ پیدا کرتا ہے اور پچھلے مرحلے سے امیج کو سرایت کرتا ہے۔ DALL.E 2 کا ڈیکوڈر اپنے فن تعمیر کو دوسرے ماڈل کا مرہون منت ہے، سرکنا، جو متنی اشاروں سے حقیقت پسندانہ تصاویر بھی تیار کر سکتا ہے۔
DALL-E ماڈل کا فن تعمیر (ڈفیوژن ملٹی ماڈل)
DALL-E ماڈل کا آسان فن تعمیر

Python صارفین دلچسپی رکھتے ہیں۔ لینگچین بنیادی باتوں سے لے کر جدید تکنیکوں تک ہر چیز کا احاطہ کرنے والے ہمارے تفصیلی ٹیوٹوریل کو دیکھیں۔

جنریٹو اے آئی کی ایپلی کیشنز

متنی ڈومینز

متن کے ساتھ شروع کرتے ہوئے، جنریٹو AI کو چیٹ بوٹس جیسے بنیادی طور پر تبدیل کر دیا گیا ہے۔ چیٹ جی پی ٹی. نیچرل لینگویج پروسیسنگ (NLP) اور بڑے لینگویج ماڈلز (LLMs) پر بہت زیادہ انحصار کرتے ہوئے، ان اداروں کو کوڈ جنریشن اور زبان کے ترجمے سے لے کر خلاصہ اور جذبات کے تجزیے تک کے کام انجام دینے کا اختیار حاصل ہے۔ مثال کے طور پر، چیٹ جی پی ٹی نے بڑے پیمانے پر اپنایا ہے، جو لاکھوں کے لیے ایک اہم مقام بن گیا ہے۔ یہ بات چیت کے AI پلیٹ فارمز کے ذریعے مزید بڑھایا جاتا ہے، جو LLMs جیسے GPT-4 میں گراؤنڈ ہوتا ہے، کھجور، اور بلوم، جو آسانی سے متن تیار کرتا ہے، پروگرامنگ میں مدد کرتا ہے، اور یہاں تک کہ ریاضیاتی استدلال بھی پیش کرتا ہے۔

تجارتی نقطہ نظر سے، یہ ماڈل انمول ہوتے جا رہے ہیں۔ کاروبار انہیں بے شمار کاموں کے لیے ملازمت دیتے ہیں، بشمول رسک مینجمنٹ، انوینٹری کی اصلاح، اور پیشین گوئی کے مطالبات۔ کچھ قابل ذکر مثالوں میں Bing AI، Google's BARD، اور ChatGPT API شامل ہیں۔

فن

تصاویر کی دنیا نے جنریٹو AI کے ساتھ ڈرامائی تبدیلیاں دیکھی ہیں، خاص طور پر 2 میں DALL-E 2022 کے متعارف ہونے کے بعد سے۔ یہ ٹیکنالوجی، جو کہ متنی اشارے سے تصاویر بنا سکتی ہے، فنکارانہ اور پیشہ ورانہ دونوں طرح کے اثرات رکھتی ہے۔ مثال کے طور پر، مڈ جرنی نے متاثر کن حقیقت پسندانہ تصاویر تیار کرنے کے لیے اس ٹیکنالوجی کا فائدہ اٹھایا ہے۔ یہ حالیہ پوسٹ مڈجرنی کو بے نقاب کرتا ہے۔ ایک تفصیلی گائیڈ میں، پلیٹ فارم اور اس کی فوری انجینئرنگ کی پیچیدگیوں دونوں کو واضح کرتے ہوئے۔ مزید برآں، Alpaca AI اور Photoroom AI جیسے پلیٹ فارمز جنریٹیو AI کا استعمال جدید تصویری ایڈیٹنگ فنکشنلٹیز جیسے کہ پس منظر کو ہٹانا، آبجیکٹ ڈیلیٹ کرنا، اور یہاں تک کہ چہرے کی بحالی کے لیے کرتے ہیں۔

ویڈیو پروڈکشن

ویڈیو پروڈکشن، جنریٹیو AI کے دائرے میں ابھی بھی اپنے ابتدائی مرحلے میں ہے، امید افزا پیشرفت کی نمائش کر رہی ہے۔ Imagen Video، Meta Make A Video، اور Runway Gen-2 جیسے پلیٹ فارمز ممکن ہے کی حدود کو آگے بڑھا رہے ہیں، یہاں تک کہ اگر واقعی حقیقت پسندانہ نتائج ابھی بھی افق پر ہیں۔ یہ ماڈل ڈیجیٹل انسانی ویڈیوز بنانے کے لیے کافی افادیت پیش کرتے ہیں، جس میں سنتھیشیا اور سپر کریٹر جیسی ایپلی کیشنز چارج کی قیادت کرتی ہیں۔ خاص طور پر، Tavus AI انفرادی سامعین کے اراکین کے لیے ویڈیوز کو ذاتی بنا کر فروخت کی ایک منفرد تجویز پیش کرتا ہے، جو کاروبار کے لیے ایک اعزاز ہے۔

کوڈ کی تخلیق

کوڈنگ، ہماری ڈیجیٹل دنیا کا ایک ناگزیر پہلو، جنریٹو AI سے اچھوت نہیں رہا۔ اگرچہ ChatGPT ایک پسندیدہ ٹول ہے، لیکن کوڈنگ کے مقاصد کے لیے کئی دیگر AI ایپلی کیشنز تیار کی گئی ہیں۔ یہ پلیٹ فارمز، جیسے GitHub Copilot، Alphacode، اور CodeComplete، کوڈنگ اسسٹنٹ کے طور پر کام کرتے ہیں اور ٹیکسٹ پرامپٹس سے کوڈ بھی تیار کر سکتے ہیں۔ دلچسپ بات ان ٹولز کی موافقت ہے۔ Codex، GitHub Copilot کے پیچھے محرک قوت، کو ایک فرد کے کوڈنگ کے انداز کے مطابق بنایا جا سکتا ہے، جو جنریٹو AI کی ذاتی نوعیت کی صلاحیت کو اجاگر کرتا ہے۔

نتیجہ

مشین کی گنتی کے ساتھ انسانی تخلیقی صلاحیتوں کو ملاتے ہوئے، یہ ایک انمول ٹول کے طور پر تیار ہوا ہے، جس میں ChatGPT اور DALL-E 2 جیسے پلیٹ فارمز ان چیزوں کی حدود کو آگے بڑھاتے ہیں جو قابل فہم ہیں۔ متنی مواد تیار کرنے سے لے کر بصری شاہکاروں کی مجسمہ سازی تک، ان کے اطلاقات وسیع اور متنوع ہیں۔

جیسا کہ کسی بھی ٹیکنالوجی کے ساتھ، اخلاقی مضمرات سب سے اہم ہیں۔ اگرچہ جنریٹو اے آئی بے حد تخلیقی صلاحیتوں کا وعدہ کرتا ہے، لیکن ممکنہ تعصبات اور ڈیٹا میں ہیرا پھیری کی طاقت سے آگاہ ہوتے ہوئے اسے ذمہ داری کے ساتھ استعمال کرنا بہت ضروری ہے۔

ChatGPT جیسے ٹولز کے مزید قابل رسائی ہونے کے ساتھ، اب پانی کی جانچ کرنے اور تجربہ کرنے کا بہترین وقت ہے۔ چاہے آپ آرٹسٹ، کوڈر، یا ٹیک کے شوقین ہوں، جنریٹیو AI کا دائرہ ایسے امکانات سے بھرا ہوا ہے جس کی تلاش کے منتظر ہیں۔ انقلاب افق پر نہیں ہے۔ یہ یہاں اور اب ہے. تو، میں ڈوبکی!

میں نے پچھلے پانچ سال خود کو مشین لرننگ اور ڈیپ لرننگ کی دلچسپ دنیا میں غرق کرتے ہوئے گزارے ہیں۔ میرے جذبے اور مہارت نے مجھے AI/ML پر خصوصی توجہ کے ساتھ 50 سے زیادہ متنوع سافٹ ویئر انجینئرنگ پراجیکٹس میں حصہ ڈالنے پر مجبور کیا ہے۔ میرے جاری تجسس نے مجھے نیچرل لینگویج پروسیسنگ کی طرف بھی کھینچا ہے، ایک ایسا شعبہ جس کو میں مزید دریافت کرنے کے لیے بے چین ہوں۔