ہمارے ساتھ رابطہ

AI میں ڈفیوژن ماڈلز - ہر وہ چیز جو آپ کو جاننے کی ضرورت ہے۔

مصنوعی ذہانت

AI میں ڈفیوژن ماڈلز - ہر وہ چیز جو آپ کو جاننے کی ضرورت ہے۔

mm
AI امیج جنریٹر کا استعمال کرتے ہوئے انسانی چہروں کا ایک کولیج بنایا گیا ہے۔

AI ماحولیاتی نظام میں، پھیلاؤ کے ماڈل تکنیکی ترقی کی سمت اور رفتار کو ترتیب دے رہے ہیں۔ وہ جس طرح سے ہم پیچیدہ تک پہنچتے ہیں اس میں انقلاب لا رہے ہیں۔ پیدا کرنے والا AI کام یہ ماڈل گاوسی اصولوں، تغیرات، تفریق مساوات، اور تخلیقی ترتیب کی ریاضی پر مبنی ہیں۔ (ہم ذیل میں تکنیکی اصطلاح کی وضاحت کریں گے)

Nvidia، Google، Adobe، اور OpenAI کے ذریعہ تیار کردہ جدید AI-مرکزی مصنوعات اور حل نے پھیلاؤ کے ماڈلز کو روشنی کے مرکز میں رکھا ہے۔ ڈی ایل ای 2, مستحکم بازی، اور درمیانی سفر ڈفیوژن ماڈلز کی نمایاں مثالیں ہیں جو حال ہی میں انٹرنیٹ پر گردش کر رہی ہیں۔ صارفین ان پٹ کے طور پر ایک سادہ ٹیکسٹ پرامپٹ فراہم کرتے ہیں، اور یہ ماڈل انہیں حقیقت پسندانہ تصویروں میں تبدیل کر سکتے ہیں، جیسا کہ ذیل میں دکھایا گیا ہے۔

ان پٹ پرامپٹ کا استعمال کرتے ہوئے Midjourney v5 کے ساتھ تیار کردہ ایک تصویر: متحرک California poppies۔

ان پٹ پرامپٹ کا استعمال کرتے ہوئے Midjourney v5 کے ساتھ تیار کردہ ایک تصویر: متحرک California poppies۔ ذریعہ: درمیانی سفر

آئیے ڈفیوژن ماڈلز کے بنیادی کام کرنے والے اصولوں کو دریافت کریں اور دیکھیں کہ وہ کس طرح دنیا کی سمتوں اور اصولوں کو تبدیل کر رہے ہیں جیسا کہ ہم اسے آج دیکھ رہے ہیں۔

ڈفیوژن ماڈلز کیا ہیں؟

تحقیقی اشاعت کے مطابق "ڈینوائزنگ ڈفیوژن پروبیبلسٹک ماڈلز" بازی ماڈلز کی تعریف اس طرح کی گئی ہے:

"ایک ڈفیوژن ماڈل یا امکانی بازی کا ماڈل ایک پیرامیٹرائزڈ مارکوف چین ہے جسے متغیر تخمینہ کا استعمال کرتے ہوئے تربیت دی جاتی ہے تاکہ مقررہ وقت کے بعد ڈیٹا سے مماثل نمونے تیار کیے جا سکیں"

سیدھے الفاظ میں، ڈفیوژن ماڈلز اسی طرح کا ڈیٹا تیار کر سکتے ہیں جس پر وہ تربیت یافتہ ہیں۔ اگر ماڈل بلیوں کی تصاویر پر تربیت کرتا ہے، تو یہ بلیوں کی اسی طرح کی حقیقت پسندانہ تصاویر بنا سکتا ہے۔

اب آئیے مذکورہ تکنیکی تعریف کو توڑنے کی کوشش کرتے ہیں۔ ڈفیوژن ماڈل ایک ممکنہ ماڈل کے کام کرنے والے اصول اور ریاضیاتی بنیاد سے متاثر ہوتے ہیں جو نظام کے رویے کا تجزیہ اور پیش گوئی کر سکتا ہے جو وقت کے ساتھ مختلف ہوتا ہے، جیسے کہ اسٹاک مارکیٹ کی واپسی یا وبائی بیماری کے پھیلاؤ کی پیش گوئی کرنا۔

تعریف میں کہا گیا ہے کہ وہ پیرامیٹرائزڈ مارکوف چینز ہیں جن کو تغیراتی تخمینہ کے ساتھ تربیت دی گئی ہے۔ مارکوف چینز ریاضیاتی ماڈل ہیں جو ایک ایسے نظام کی وضاحت کرتے ہیں جو وقت کے ساتھ ساتھ مختلف ریاستوں کے درمیان تبدیل ہوتا ہے۔ نظام کی موجودہ حالت ہی کسی مخصوص حالت میں منتقلی کے امکانات کا تعین کر سکتی ہے۔ دوسرے لفظوں میں، کسی نظام کی موجودہ حالت ان ممکنہ ریاستوں کو رکھتی ہے جو نظام کسی بھی وقت پیروی یا حاصل کر سکتا ہے۔

تغیراتی تخمینہ کا استعمال کرتے ہوئے ماڈل کی تربیت میں امکانی تقسیم کے لیے پیچیدہ حسابات شامل ہیں۔ اس کا مقصد مارکوف چین کے درست پیرامیٹرز کو تلاش کرنا ہے جو ایک مخصوص وقت کے بعد مشاہدہ شدہ (معلوم یا حقیقی) ڈیٹا سے میل کھاتے ہیں۔ یہ عمل ماڈل کے نقصان کے فنکشن کی قدر کو کم کرتا ہے، جو کہ پیش گوئی شدہ (نامعلوم) اور مشاہدہ شدہ (معلوم) حالت کے درمیان فرق ہے۔

ایک بار تربیت حاصل کرنے کے بعد، ماڈل مشاہدہ شدہ ڈیٹا سے مماثل نمونے تیار کر سکتا ہے۔ یہ نمونے ممکنہ رفتار کی نمائندگی کرتے ہیں یا یہ بتاتے ہیں کہ نظام وقت کے ساتھ پیروی کرسکتا ہے یا حاصل کرسکتا ہے، اور ہر رفتار کے ہونے کا امکان مختلف ہوتا ہے۔ لہذا، ماڈل نمونوں کی ایک رینج تیار کرکے اور ان کے متعلقہ امکانات (ان واقعات کے ہونے کا امکان) تلاش کرکے نظام کے مستقبل کے رویے کی پیش گوئی کرسکتا ہے۔

AI میں ڈفیوژن ماڈلز کی تشریح کیسے کریں؟

ڈفیوژن ماڈلز گہرے پیدا کرنے والے ماڈل ہیں جو دستیاب ٹریننگ ڈیٹا (جسے فارورڈ ڈفیوژن کے عمل کے نام سے بھی جانا جاتا ہے) میں شور (گاوسی شور) شامل کر کے کام کرتے ہیں اور پھر ڈیٹا کو بازیافت کرنے کے لیے اس عمل کو (جسے ڈینوائزنگ یا ریورس ڈفیوژن کے طور پر جانا جاتا ہے) کو ریورس کرتے ہیں۔ ماڈل آہستہ آہستہ شور کو دور کرنا سیکھتا ہے۔ یہ سیکھا ہوا منحرف کرنے کا عمل بے ترتیب بیجوں (بے ترتیب شور والی تصاویر) سے نئی، اعلیٰ معیار کی تصاویر تیار کرتا ہے، جیسا کہ ذیل کی مثال میں دکھایا گیا ہے۔

ریورس ڈفیوژن کا عمل: ایک شور والی تصویر کو تربیت یافتہ ڈفیوژن ماڈل کے ذریعے اصل تصویر کی بازیافت (یا اس کی مختلف حالتوں کو پیدا کرنے) کی تردید کی جاتی ہے۔

ریورس ڈفیوژن کا عمل: ایک شور والی تصویر کو تربیت یافتہ ڈفیوژن ماڈل کے ذریعے اصل تصویر کی بازیافت (یا اس کی مختلف حالتوں کو پیدا کرنے) کی تردید کی جاتی ہے۔ ذریعہ: ڈینوائزنگ ڈفیوژن پروبیبلسٹک ماڈلز

3 ڈفیوژن ماڈل کیٹیگریز

وہاں ہے تین بنیادی ریاضیاتی فریم ورک جو پھیلاؤ کے ماڈلز کے پیچھے سائنس کی بنیاد رکھتا ہے۔ تینوں شور کو شامل کرنے اور پھر نئے نمونے بنانے کے لیے اسے ہٹانے کے یکساں اصولوں پر کام کرتے ہیں۔ آئیے ذیل میں ان پر بات کرتے ہیں۔

ایک بازی ماڈل تصویر سے شور کو جوڑتا اور ہٹاتا ہے۔

ایک بازی ماڈل تصویر سے شور کو جوڑتا اور ہٹاتا ہے۔ ذریعہ: وژن میں پھیلاؤ کے ماڈل: ایک سروے

1. ڈینوائزنگ ڈفیوژن پروبیبلسٹک ماڈلز (DDPMs)

جیسا کہ اوپر بیان کیا گیا ہے، DDPMs جنریٹیو ماڈل ہیں جو بنیادی طور پر بصری یا آڈیو ڈیٹا سے شور کو دور کرنے کے لیے استعمال ہوتے ہیں۔ انہوں نے مختلف امیج اور آڈیو ڈینوائزنگ ٹاسکس پر متاثر کن نتائج دکھائے ہیں۔ مثال کے طور پر، فلم سازی کی صنعت پروڈکشن کوالٹی کو بہتر بنانے کے لیے جدید امیج اور ویڈیو پروسیسنگ ٹولز کا استعمال کرتی ہے۔

2. شور کنڈیشنڈ اسکور پر مبنی جنریٹو ماڈلز (SGMs)

SGMs دی گئی تقسیم سے نئے نمونے تیار کر سکتے ہیں۔ وہ ایک تخمینہ سکور فنکشن سیکھ کر کام کرتے ہیں جو ہدف کی تقسیم کے لاگ کثافت کا اندازہ لگا سکتا ہے۔ لاگ کثافت کا تخمینہ دستیاب ڈیٹا پوائنٹس کے لیے قیاس کرتا ہے کہ یہ نامعلوم ڈیٹاسیٹ (ٹیسٹ سیٹ) کا حصہ ہے۔ یہ سکور فنکشن پھر تقسیم سے نئے ڈیٹا پوائنٹس بنا سکتا ہے۔

مثال کے طور پر، گہرے جعلی مشہور شخصیات کی جعلی ویڈیوز اور آڈیو بنانے کے لیے بدنام ہیں۔ لیکن وہ زیادہ تر سے منسوب ہیں۔ جنریٹو ایڈورسریل نیٹ ورکس (GANs). تاہم، SGMs ہے اسی طرح کی صلاحیتیں دکھائیں - بعض اوقات بہتر کارکردگی کا مظاہرہ کرتے ہیں۔ - اعلی معیار کی مشہور شخصیت کے چہرے پیدا کرنے میں۔ نیز، SGMs صحت کی دیکھ بھال کے ڈیٹاسیٹس کو بڑھانے میں مدد کر سکتے ہیں، جو سخت ضوابط اور صنعت کے معیارات کی وجہ سے بڑی مقدار میں آسانی سے دستیاب نہیں ہیں۔

3. سٹاکسٹک تفریق مساوات (SDEs)

SDEs وقت سے متعلق بے ترتیب عمل میں تبدیلیوں کی وضاحت کرتے ہیں۔ وہ فزکس اور مالیاتی بازاروں میں بڑے پیمانے پر استعمال ہوتے ہیں جن میں بے ترتیب عوامل شامل ہوتے ہیں جو مارکیٹ کے نتائج کو نمایاں طور پر متاثر کرتے ہیں۔

مثال کے طور پر، اشیاء کی قیمتیں انتہائی متحرک اور بے ترتیب عوامل کی ایک حد سے متاثر ہوتی ہیں۔ SDEs مستقبل کے معاہدوں (جیسے خام تیل کے معاہدے) جیسے مالی مشتقات کا حساب لگاتے ہیں۔ وہ اتار چڑھاؤ کا نمونہ بنا سکتے ہیں اور حفاظت کا احساس دلانے کے لیے مناسب قیمتوں کا درست اندازہ لگا سکتے ہیں۔

AI میں ڈفیوژن ماڈلز کی بڑی ایپلی کیشنز

آئیے AI میں پھیلاؤ والے ماڈلز کے کچھ وسیع پیمانے پر موافقت پذیر طریقوں اور استعمال کو دیکھتے ہیں۔

اعلی معیار کی ویڈیو جنریشن

استعمال کرتے ہوئے اعلی درجے کی ویڈیوز بنانا گہری سیکھنے چیلنجنگ ہے کیونکہ اس کے لیے ویڈیو فریموں کے اعلی تسلسل کی ضرورت ہوتی ہے۔ یہ وہ جگہ ہے جہاں ڈفیوژن ماڈل کام آتے ہیں کیونکہ وہ گمشدہ فریموں کے درمیان بھرنے کے لیے ویڈیو فریموں کا ایک ذیلی سیٹ تیار کر سکتے ہیں، جس کے نتیجے میں بغیر کسی تاخیر کے اعلیٰ معیار کی اور ہموار ویڈیوز بنتی ہیں۔

محققین نے تیار کیا ہے۔ لچکدار پھیلاؤ ماڈل اور بقایا ویڈیو بازی اس مقصد کو پورا کرنے کی تکنیک۔ یہ ماڈلز حقیقی فریموں کے درمیان بغیر کسی رکاوٹ کے AI سے تیار کردہ فریموں کو شامل کرکے حقیقت پسندانہ ویڈیوز بھی تیار کر سکتے ہیں۔

یہ ماڈل دستیاب فریموں سے پیٹرن سیکھنے کے بعد ڈمی فریم شامل کرکے کم FPS ویڈیو کے FPS (فریمز فی سیکنڈ) کو آسانی سے بڑھا سکتے ہیں۔ تقریباً بغیر کسی فریم کے نقصان کے، یہ فریم ورک ڈیپ لرننگ پر مبنی ماڈلز کو شروع سے AI پر مبنی ویڈیوز بنانے میں مزید مدد کر سکتے ہیں جو کہ ہائی اینڈ کیم سیٹ اپ سے قدرتی شاٹس کی طرح نظر آتے ہیں۔

قابل ذکر کی ایک وسیع رینج AI ویڈیو جنریٹرز ویڈیو مواد کی تیاری اور ترمیم کو تیز اور سیدھا بنانے کے لیے 2023 میں دستیاب ہے۔

ٹیکسٹ ٹو امیج جنریشن

ٹیکسٹ ٹو امیج ماڈل اعلیٰ معیار کی تصاویر بنانے کے لیے ان پٹ پرامپٹس کا استعمال کرتے ہیں۔ مثال کے طور پر، "پلیٹ میں سرخ سیب" کا ان پٹ دینا اور پلیٹ میں ایک سیب کی تصویری حقیقت پسندانہ تصویر بنانا۔ ملاوٹ شدہ بازی اور unCLIP ایسے ماڈلز کی دو نمایاں مثالیں ہیں جو صارف کے ان پٹ کی بنیاد پر انتہائی متعلقہ اور درست تصویریں بنا سکتی ہیں۔

اس کے علاوہ، اوپن اے آئی کے ذریعہ گلائیڈ 2021 میں جاری کردہ ایک اور وسیع پیمانے پر جانا جاتا حل ہے جو صارف کے ان پٹ کا استعمال کرتے ہوئے فوٹو ریئلسٹک تصاویر تیار کرتا ہے۔ بعد میں، OpenAI نے DALL.E-2 کو جاری کیا، جو کہ اس کا اب تک کا سب سے جدید ترین امیج جنریشن ماڈل ہے۔

اسی طرح گوگل نے بھی امیج جنریشن ماڈل تیار کیا ہے جس کے نام سے جانا جاتا ہے۔ تصویر، جو ان پٹ ٹیکسٹ کی گہری متنی تفہیم تیار کرنے کے لیے ایک بڑے زبان کے ماڈل کا استعمال کرتا ہے اور پھر فوٹو ریئلسٹک امیجز تیار کرتا ہے۔

ہم نے دیگر مشہور امیج جنریشن ٹولز کا ذکر کیا ہے جیسے مڈجرنی اور اسٹیبل ڈفیوژن (ڈریم اسٹوڈیو) اوپر۔ ذیل میں اسٹیبل ڈفیوژن کا استعمال کرتے ہوئے تیار کردہ تصویر پر ایک نظر ڈالیں۔

Stable Diffusion 1.5 کے ساتھ تخلیق کردہ انسانی چہروں کا کولیج

اسٹیبل ڈفیوژن 1.5 کے ساتھ مندرجہ ذیل پرامپٹ کا استعمال کرتے ہوئے ایک تصویر بنائی گئی: "کولاجز، ہائپر ریئلسٹک، بہت پرانے تھوم یارک کے بہت سے تغیرات کا پورٹریٹ، چہرے کی مختلف حالتیں، گلوکار گانا لکھنے والے، ( سائیڈ ) پروفائل، مختلف عمریں، میکرو لینس، لیمینل اسپیس، بذریعہ لی برمیجو، الفونس موسا اور گریگ رٹکوسکی، گرے داڑھی، ہموار چہرہ، گالوں کی ہڈیاں"

AI میں ڈفیوژن ماڈلز - مستقبل میں کیا توقع کی جائے؟

ڈفیوژن ماڈلز نے پیچیدہ امیج اور ویڈیو ڈیٹاسیٹس سے اعلیٰ معیار کے نمونے تیار کرنے کے لیے ایک مضبوط نقطہ نظر کے طور پر امید افزا صلاحیت کا انکشاف کیا ہے۔ ڈیٹا کو استعمال کرنے اور اس میں ہیرا پھیری کرنے کی انسانی صلاحیت کو بہتر بنا کر، ڈفیوژن ماڈل ممکنہ طور پر دنیا میں انقلاب برپا کر سکتے ہیں جیسا کہ ہم آج دیکھتے ہیں۔ ہم توقع کر سکتے ہیں کہ ڈفیوژن ماڈلز کی مزید ایپلی کیشنز ہماری روزمرہ کی زندگی کا لازمی حصہ بنتے جائیں۔

یہ کہنے کے بعد، بازی کے ماڈلز صرف تخلیقی AI تکنیک نہیں ہیں۔ محققین جنریٹو ایڈورسریل نیٹ ورکس (GANs)، تغیراتی بھی استعمال کرتے ہیں۔ آٹو اینکوڈرز، اور AI مواد تیار کرنے کے لیے بہاؤ پر مبنی گہرے جنریٹو ماڈلز۔ ان بنیادی خصوصیات کو سمجھنا جو ڈفیوژن ماڈلز کو دوسرے جنریٹیو ماڈلز سے ممتاز کرتے ہیں آنے والے دنوں میں مزید موثر حل پیدا کرنے میں مدد کر سکتے ہیں۔

AI پر مبنی ٹیکنالوجیز کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ متحد ہو جاؤ. ذیل میں جنریٹیو AI ٹولز پر ہمارے تیار کردہ وسائل کو دیکھیں۔