الذكاء الاصطناعي

نمذجة التكرارية البصرية: توليد الصور بالقياس عن طريق التنبؤ بالمساحة التالية

Published April 10, 2024

Updated April 4, 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

مع ظهور نماذج GPT ، إلى جانب نماذج اللغة الكبيرة الأخرى ذات التكرارية أو AR ، تم unfurled حقبة جديدة في مجال التعلم الآلي والذكاء الاصطناعي. غالبًا ما تظهر نماذج GPT والنمذجة التكرارية ذكاءً عامًا وتنوعًا يُعتبر خطوة كبيرة نحو الذكاء الاصطناعي العام أو AGI ، على الرغم من وجود بعض المشاكل مثل الهلوسة. ومع ذلك ، فإن المشكلة المربكة مع هذه النماذج الكبيرة هي استراتيجية التعلم الذاتي الإشرافي التي تسمح للنموذج بالتنبؤ بالرمز التالي في التسلسل ، وهي استراتيجية بسيطة ولكنها فعالة. أظهرت الأعمال الحديثة نجاح هذه النماذج التكرارية الكبيرة ، مما يسلط الضوء على قابليتها للتعميم والتماسك. التماسك هو مثال على القوانين الحالية للتوسيع التي تسمح للباحثين بالتنبؤ بأداء النموذج الكبير من أداء النماذج الأصغر ، مما يؤدي إلى تخصيص الموارد بشكل أفضل. من ناحية أخرى ، غالبًا ما يُظهر التعميم استراتيجيات التعلم مثل التعلم من الصفر ، والتعلم من مرة واحدة ، والتعلم من عدة مرات ، مما يسلط الضوء على قدرة النماذج غير الخاضعة للإشراف ولكن المدربة على التكيف مع المهام المتنوعة وغير المرئية. معًا ، يكشف التعميم والتماسك عن إمكانية نماذج التكرار لتعلم كمية كبيرة من البيانات غير المعلنة.

بناءً على ذلك ، في هذه المقالة ، سنناقش إطار Visual AutoRegressive أو VAR ، وهو نمط جديد من الأنماط ي重新 يحدد التعلم التكراري على الصور كتنبؤ بالمساحة التالية أو التنبؤ بالقياس التالي. على الرغم من بساطته ، فإن هذا النهج فعال ويمكن للتحويلات التكرارية تعلم التوزيعات البصرية بشكل أفضل ، وتحسين التعميم. بالإضافة إلى ذلك ، يسمح نموذج Visual AutoRegressive بنماذج GPT-Style التكرارية بالتفوق على نماذج Diffusion Transfers في توليد الصور لأول مرة. تشير التجارب أيضًا إلى أن إطار VAR يحسن من أساسيات التكرار بشكل كبير ، ويتفوق على إطار Diffusion Transformer أو DiT في أبعاد متعددة ، بما في ذلك كفاءة البيانات ، وجودة الصورة ، والتماسك ، وسرعة الاستدلال. بالإضافة إلى ذلك ، يُظهر توسيع نماذج Visual AutoRegressive قوانين التوسيع القائم على القوة ، مشابهة لتلك التي لوحظت في نماذج اللغة الكبيرة ، كما يعرض khảية التعميم من الصفر في المهام الفرعية ، بما في ذلك التحرير ، وملء الفراغات ، وملء الخلفية.

تهدف هذه المقالة إلى تغطية إطار Visual AutoRegressive بالتفصيل ، وسنستكشف الآلية والمنهجية وهيكل الإطار جنبًا إلى جنب مع مقارنته بالأساليب الحالية. سنناقش أيضًا كيف يعرض إطار Visual AutoRegressive خاصيتين مهمتين من نماذج LLMs: قوانين التوسيع والتعميم من الصفر. لذا دعونا نبدأ.

نمذجة التكرارية البصرية: توسيع توليد الصور

نمط شائع بين نماذج اللغة الكبيرة الحديثة هو تنفيذ استراتيجية التعلم الذاتي الإشرافي ، وهي نهج بسيط ولكن فعال. ويمكن أن تتنبأ هذه الاستراتيجية بالرمز التالي في التسلسل. بفضل هذا النهج ، أظهرت نماذج GPT والنمذجة التكرارية واللغة الكبيرة اليوم قابليتها للتوسيع والتعميم ، وهي خصائص تكشف عن إمكانية نماذج التكرار لتعلم كمية كبيرة من البيانات غير المعلنة ، وبالتالي تلخص جوهر الذكاء الاصطناعي العام. بالإضافة إلى ذلك ، عمل باحثون في مجال الرؤية الحاسوبية جنبًا إلى جنب لتطوير نماذج تكرارية كبيرة أو نماذج العالم بهدف مطابقة أو تجاوز قابليتها للتوسيع والتعميم ، مع نماذج مثل DALL-E و VQGAN التي أظهرت بالفعل إمكانية نماذج التكرار في مجال توليد الصور. غالبًا ما تطبق هذه النماذج معززًا بصرية يُمثل أو يقرب الصور المستمرة في شبكة من الرموز ثنائية الأبعاد ، والتي يتم بعد ذلك تحويلها إلى تسلسل واحد الأبعاد للتعلم التكراري ، وبالتالي تقليد عملية نمذجة اللغة التسلسلية.

然而 ، لم يتم بعد استكشاف قوانين التوسيع لهذه النماذج ، وما هو أكثر إحباطًا هو حقيقة أن أداء هذه النماذج غالبًا ما يقع خلف نماذج Diffusion بفارق كبير ، كما هو موضح في الصورة التالية. يُظهر الفجوة في الأداء أن قابليتي نماذج التكرار في الرؤية الحاسوبية لم يتم استكشافها بالكامل.

من ناحية ، تتطلب النماذج التكرارية التقليدية ترتيبًا محددًا للبيانات ، بينما من ناحية أخرى ، ي重新 يفكر إطار Visual AutoRegressive أو VAR في كيفية ترتيب الصورة ، وهذا ما يميز VAR عن الأساليب التكرارية الحالية. عادةً ما يخلق البشر الصور أو يدركونها بطريقة هرمية ، حيث يتم التقاط الهيكل العالمي متبوعًا بالتفاصيل المحلية ، وهي نهج متعددة القياسات ، من الخشن إلى الدقيق ، يُقترح ترتيبًا طبيعيًا للصورة. بالإضافة إلى ذلك ، مستوحى من التصاميم متعددة القياسات ، يحدد إطار VAR التعلم التكراري للصور كتنبؤ بالقياس التالي ، بدلاً من النهج التقليدية التي تحدد التعلم كتنبؤ بالرمز التالي. يبدأ النهج المطبق بواسطة إطار VAR بتشفير الصورة إلى خرائط رموز متعددة القياسات. ثم يبدأ الإطار عملية التكرار من خريطة الرموز 1×1 ، ويتوسع تدريجيًا في الدقة. في كل خطوة ، يتنبأ المحول بالخريطة التالية للرموز ذات الدقة الأعلى ، مشروطًا بجميع الرموز السابقة ، وهي منهجية يُشير إليها إطار VAR باسم نمذجة VAR.

يحاول إطار VAR الاستفادة من هيكل المحول في GPT-2 للتعلم التكراري البصري ، والنتائج واضحة على معيار ImageNet حيث يحسن نموذج VAR من أساسياته التكرارية بشكل كبير ، ويحقق نسبة FID من 1.80 ، ودرجة بدء من 356 ، إلى جانب تحسين 20 ضعفًا في سرعة الاستدلال. ما هو أكثر إثارة للاهتمام هو أن إطار VAR يتمكن من تجاوز أداء إطار Diffusion Transformer أو DiT من حيث درجات FID و IS ، والتماسك ، وسرعة الاستدلال ، وكفاءة البيانات. بالإضافة إلى ذلك ، يُظهر نموذج Visual AutoRegressive قوانين توسيع قوية مشابهة لتلك التي شهدناها في نماذج اللغة الكبيرة.

لتلخيص ، يحاول إطار VAR القيام بالمساهمات التالية.

يُقترح إطارًا جديدًا للتنبؤ البصري الذي يستخدم نهجًا تكراريًا متعددة القياسات مع تنبؤ بالقياس التالي ، على عكس التنبؤ بالرمز التالي ، مما يؤدي إلى تصميم الخوارزمية التكرارية لمهام الرؤية الحاسوبية.
يحاول التحقق من قوانين التوسيع لنماذج التكرار ، إلى جانب إمكانية التعميم من الصفر ، التي تقلد الخواص الجذابة لنماذج LLMs.
يُقدم اختراقًا في أداء نماذج التكرار البصرية ، مما يسمح بنماذج GPT-Style التكرارية بالتفوق على نماذج Diffusion الحالية في مهام توليد الصور لأول مرة.

علاوة على ذلك ، من المهم مناقشة قوانين التوسيع الحالية القائمة على القوة ، التي تصف بشكل رياضي العلاقة بين أحجام مجموعات البيانات ، ومتغيرات النموذج ، وتحسين الأداء ، والموارد الحاسوبية لنماذج التعلم الآلي. أولاً ، تسهل قوانين التوسيع القائمة على القوة تطبيق أداء نموذج أكبر عن طريق توسيع حجم النموذج ، والتكلفة الحاسوبية ، وحجم البيانات ، مما يوفر توفيرًا في التكاليف ويوفر تخصيص الموارد من خلال توفير المبادئ. ثانيًا ، أظهرت قوانين التوسيع زيادة متسقة وغیر مشبعة في الأداء. متقدمًا مع مبادئ قوانين التوسيع في نماذج اللغة ، فإن العديد من نماذج LLMs تُجسد المبدأ الذي يزيد فيه توسيع حجم النماذج من الأداء. التعميم من الصفر ، من ناحية أخرى ، يُشير إلى khảية نموذج ، خاصة نموذج LLM ، لأداء مهام لم يتم تدريبه عليها بشكل صريح. داخل مجال الرؤية الحاسوبية ، يُشير الاهتمام ببناء khảية التعميم من الصفر ، والتعلم في السياق ، لنماذج الأساس.

تعتمد نماذج اللغة على خوارزميات WordPiece أو نهج Byte Pair Encoding للتحليل اللغوي. تعتمد نماذج التوليد البصري على نماذج اللغة أيضًا بشكل كبير على تشفير الصور ثنائية الأبعاد إلى تسلسلات رموز واحدة الأبعاد. أظهرت الأعمال المبكرة مثل VQVAE khảية تمثيل الصور كرموز منفصلة مع جودة إعادة البناء معقولة. خليفة VQVAE ، إطار VQGAN ، دمج الخسائر الإدراكية والخسائر العدائية لتحسين جودة الصورة ، وemployed محولًا فقط لتشفير الرموز في نهج تكراري قياسي. نماذج Diffusion ، من ناحية أخرى ، تم اعتبارها لفترة طويلة كرواد في مهام التوليد البصري ، بسبب تنوعها وجودة توليدها العالية. تم التركيز على تطور نماذج Diffusion حول تحسين تقنيات العينة ، وتحسينات هندسية ، وسرعة العينة الأسرع. تطبق نماذج Diffusion في الفضاء اللاتنسي تحسين كفاءة التدريب وسرعة الاستدلال. نماذج Diffusion Transformer تحل محل هيكل U-Net التقليدي بهيكل محول ، وتم نشرها في نماذج توليد الصور أو الفيديو الحديثة مثل SORA و Stable Diffusion.

التكرارية البصرية : المنهجية والهيكل

في جوهره ، يحتوي إطار VAR على مرحلتين منفصلتين للتدريب. في المرحلة الأولى ، يتم تشفير الصورة إلى خرائط رموز متعددة القياسات بواسطة معزز تلقائي كمي متعدد القياسات أو VQVAE ، ويتطلب خسارة إعادة البناء المركبة للتدريب. في الشكل أعلاه ، يُستخدم مصطلح التضمين لتحويل الرموز المنفصلة إلى متجهات التضمين المستمرة. في المرحلة الثانية ، يتم تدريب المحول في نموذج VAR عن طريق تقليل خسارة التباين أو تعظيم الاحتمالية باستخدام نهج التنبؤ بالقياس التالي. ثم ينتج VQVAE المدرب خريطة الرموز الأرضية للنموذج VAR.

النمذجة التكرارية عبر التنبؤ بالرمز التالي

للسلسلة المعينة من الرموز المنفصلة ، حيث يكون كل رمز عددًا صحيحًا من قاموس بحجم V ، يُقترح نموذج التنبؤ بالرمز التالي أن احتمال ملاحظة الرمز الحالي يعتمد فقط على السابق. افتراض الاعتماد التوجيهي للرمز يسمح لإطار VAR بتحليل الاحتمالات للسلسلة إلى منتج من الاحتمالات المشروطة. يتضمن تدريب نموذج تكراري تحسين النموذج عبر مجموعة بيانات ، وهذا العملية يُسمى التنبؤ بالرمز التالي ، ويمكن للنموذج المدرب توليد سلسلات جديدة. بالإضافة إلى ذلك ، تكون الإشارات البصرية إشارات مستمرة ثنائية الأبعاد بالوراثة ، ويتطلب تطبيق نهج النمذجة التكرارية على الصور عبر عملية التنبؤ بالرمز التالي بعض الشروط الأولية. أولاً ، يجب تحويل الصورة إلى رموز منفصلة. عادةً ما يتم تطبيق معزز تلقائي كمي لتحويل خريطة الميزة إلى رموز منفصلة. ثانيًا ، يجب تحديد ترتيب الرموز واحد الأبعاد للنمذجة التوجيهية.

يتم ترتيب رموز الصورة في شبكة ثنائية الأبعاد ، وغالبًا ما يتم تحويلها إلى تسلسل واحد الأبعاد باستخدام أساليب مثل مسح الشبكة ، أو منحنى z ، أو ترتيب حلزوني. بعد ذلك ، يتم استخراج مجموعة من السلاسل من مجموعة البيانات ، ويتدرب النموذج التكراري على تحسين الاحتمالية في منتج من T الاحتمالات المشروطة باستخدام التنبؤ بالرمز التالي.

النمذجة التكرارية البصرية عبر التنبؤ بالقياس التالي

ي重新 يفكر إطار VAR في النمذجة التكرارية على الصور عن طريق التحول من التنبؤ بالرمز التالي إلى نهج التنبؤ بالقياس التالي ، حيث يكون الوحدة التكرارية هي خريطة الرموز بأكملها. أولاً ، يتم كمية خريطة الميزة إلى خرائط رموز متعددة القياسات ، كل منها بدقة أعلى من السابق ، ويتوج بتحقيق دقة خريطة الميزة الأصلية. بالإضافة إلى ذلك ، يطور إطار VAR معززًا كميًا متعددة القياسات جديدًا لتشفير الصورة إلى خرائط رموز منفصلة متعددة القياسات ، وهو أمر ضروري للتعلم VAR. يُستخدم إطار VAR نفس هيكل VQGAN ، ولكن مع طبقة كمية متعددة القياسات معدلة ، ويوضح الخوارزمية في الصورة التالية.

النتائج والتجارب

يستخدم إطار VAR هيكل VQVAE القياسي مع مخطط كمية متعددة القياسات ، ويتضمن K convolution إضافية ، ويشترك في قاموس الرموز للجميع القياسات ، وlatent dim من 32. يركز بشكل رئيسي على خوارزمية VAR ، وبالتالي يتم الحفاظ على تصميم هيكل النموذج ببساطة وفعالية. يعتمد الإطار على هيكل محول قياسي ، مشابه لتلك المستخدمة في نماذج GPT-2 ، مع التعديل الوحيد هو استبدال تطبيع الطبقة التقليدية بتطبيع تكيّفي أو AdaLN.对于 التوليد الشرطي ، يطبق إطار VAR التضمين الطبقي كرمز البداية ، ويشترط أيضًا طبقة تطبيع تكيّفي.

نتائج توليد الصور الحالية

عندما يتم مقارنة إطار Visual AutoRegressive بالأساليب التوليدية الحالية ، بما في ذلك GANs أو الشبكات التوليدية المعارضة ، ونموذج التنبؤ المقنع مثل BERT ، ونموذج Diffusion ، ونموذج GPT-Style التكراري ، يُظهر إطار Visual AutoRegressive نتائج واعدة ، تلخيصها الجدول التالي.

كما يمكن ملاحظة ، يُظهر إطار Visual AutoRegressive ليس فقط khảية تحقيق أفضل درجات FID و IS ، ولكن أيضًا يُظهر سرعة توليد الصور المذهلة ، قابلة للمقارنة مع النماذج الحالية. بالإضافة إلى ذلك ، يحافظ إطار VAR أيضًا على دقة وذاكرة كافية ، مما يؤكد συνέفيته الدلالية. ولكن المفاجأة الحقيقية هي الأداء المذهل الذي قدمه إطار VAR على مهام التكرار التقليدية ، مما يجعله أول نموذج تكراري يتفوق على نموذج Diffusion Transformer ، كما هو موضح في الجدول التالي.

نتائج التعميم من الصفر

للمهام التحريرية والملء ، يُقوم إطار VAR بتعليم الرموز الحقيقية خارج Масك ، ويدع النموذج لتوليد الرموز داخل Масك ، دون حقن أي معلومات فئة إلى النموذج. تظهر النتائج في الصورة التالية ، ويمكن رؤية أن نموذج VAR يحقق نتائج مقبولة في المهام الفرعية دون تعديل المعلمات أو تعديل هيكل الشبكة ، مما يُظهر قابليته للتعميم.

أفكار الختام

في هذه المقالة ، ناقشنا إطارًا جديدًا للتنبؤ البصري يُسمى Visual AutoRegressive Modeling (VAR) الذي 1) يعالج نظريًا بعض القضايا الكامنة في نماذج AR القياسية ، و2) يجعل نماذج AR المستندة إلى نماذج اللغة تتفوق على نماذج Diffusion القوية فيما يتعلق بجودة الصورة ، والتنوع ، وكفاءة البيانات ، وسرعة الاستدلال. من ناحية ، تتطلب النماذج التكرارية التقليدية ترتيبًا محددًا للبيانات ، بينما من ناحية أخرى ، ي重新 يفكر إطار Visual AutoRegressive أو VAR في كيفية ترتيب الصورة ، وهذا ما يميز VAR عن الأساليب التكرارية الحالية. عند توسيع VAR إلى 2 مليار معامل ، لاحظ المطورون علاقة واضحة قائم على القوة بين الأداء التجريبي ومتغيرات النموذج أو الحساب ، مع معاملات بيرسون تقترب من −0.998 ، مما يشير إلى إطار قوي للتنبؤ بالأداء. تم التحقق بشكل أولي من قوانين التوسيع هذه وإمكانية التعميم من الصفر ، كخصائص مميزة لنماذج LLMs ، في نماذجنا التكرارية.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.