الذكاء الاصطناعي

InstantID: توليد الهوية المحفوظة بالصور في غضون ثوان

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

شهدت تقنية توليد الصور المدعومة بالذكاء الاصطناعي نمواً ملحوظاً في السنوات القليلة الماضية منذ ظهور نماذج الانحلال النصي إلى الصورة الكبيرة مثل DALL-E و GLIDE و Stable Diffusion و Imagen وغيرها. على الرغم من أن نماذج توليد الصور المدعومة بالذكاء الاصطناعي لها هيكل فريد وطرق تدريب، إلا أنها جميعاً تشترك في نقطة محورية مشتركة: توليد الصور المخصصة والشخصية التي تهدف إلى إنشاء صور ذات هوية الشخصية والخلفية والنمط المتسقة على أساس الصور المرجعية. نظراً لقدراتها التوليدية الرائعة، وجدت إطارات توليد الصور المدعومة بالذكاء الاصطناعي تطبيقات في مجالات تشمل تحريك الصور، والواقع الافتراضي، والتجارة الإلكترونية، والصور الشخصية المدعومة بالذكاء الاصطناعي، وغيرها. ومع ذلك، على الرغم من قدراتها التوليدية الرائعة، جميع هذه الإطارات تشترك في عائق مشترك، حيث لا تتمكن معظمها من توليد صور مخصصة مع الحفاظ على تفاصيل الهوية الدقيقة للكائنات البشرية.

توليد الصور المخصصة مع الحفاظ على التفاصيل الدقيقة هو أمر بالغ الأهمية خاصة في مهام الهوية البشرية التي تتطلب معيارًا عالياً من الدقة والتفاصيل والنعومة عند مقارنتها بمهام توليد الصور العامة التي تركز بشكل رئيسي على النسيج الخشن والألوان. بالإضافة إلى ذلك، تقدم إطارات التوليد الشخصي في السنوات الأخيرة مثل LoRA و DreamBooth و Textual Inversion وغيرها بشكل كبير. ومع ذلك، لا تزال نماذج التوليد الشخصي المدعومة بالذكاء الاصطناعي غير كاملة للنشر في السيناريوهات الواقعية لأنها تتطلب متطلبات تخزين عالية، وتتطلب صور مرجعية متعددة، وغالبًا ما تتطلب عملية ضبط دقيقة طويلة.

لمواجهة هذه التحديات، ولتعزيز قدرات توليد الصور بشكل أكبر، سنناقش في هذا المقال عن InstantID، وهو حل قائم على نموذج الانحلال لتوليد الصور. InstantID هو وحدة قابلة للتشغيل الفوري يدير توليد الصور والشخصنة ببراعة عبر أنماط مختلفة باستخدام صورة مرجعية واحدة فقط ويضمن دقة عالية. الهدف الرئيسي من هذا المقال هو تقديم قراءنا بفهم شامل للأسس الفنية ومكونات إطار InstantID حيث سننظر بشكل مفصل إلى هيكل النموذج، وعملية التدريب، وسيناريوهات التطبيق. لذا دعونا نبدأ.

InstantID: توليد الصور المحفوظة للهوية بدون طلقات

ساهم ظهور نماذج الانحلال النصي إلى الصورة بشكل كبير في تقدم تقنية توليد الصور. الهدف الرئيسي من هذه النماذج هو التوليد المخصص والشخصي، وإنشاء صور ذات موضوع ونمط وخصائص شخصية متسقة باستخدام صورة مرجعية واحدة أو أكثر. قادرة هذه الإطارات على إنشاء صور متسقة، مما خلق تطبيقات محتملة في صناعات مختلفة بما في ذلك تحريك الصور، وتوليد الصور الشخصية المدعومة بالذكاء الاصطناعي، والتجارة الإلكترونية، والواقع الافتراضي والمحسّن، وغيرها.

مع ذلك، على الرغم من قدراتها الرائعة، تواجه هذه الإطارات تحديًا أساسيًا: غالبًا ما تعاني من توليد صور مخصصة تحافظ على التفاصيل الدقيقة للكائنات البشرية بدقة. يُلاحظ أن توليد الصور المخصصة بالتفاصيل الدقيقة هو مهمة صعبة لأن الهوية البشرية تتطلب درجة أعلى من الدقة والتفاصيل مع معاني دلالية أكثر تطورًا عند مقارنتها بالكائنات أو الأنماط العامة التي تركز بشكل رئيسي على الألوان أو النسيج الخشن.

为了 مواجهة هذه العوائق، يركز إطار InstantID على توليد الصور المحفوظة للهوية الفورية، ويتصرف لجسور الفجوة بين الكفاءة والدقة العالية من خلال إدخال وحدة قابلة للتشغيل الفوري وبسيطة تتيح للإطار التعامل مع الشخصنة باستخدام صورة وجه واحدة فقط مع الحفاظ على دقة عالية. بالإضافة إلى ذلك، للحفاظ على الهوية البشرية من الصورة المرجعية، يطبق إطار InstantID معالجًا جديدًا لتحويل الوجه يحافظ على التفاصيل الصورية الدقيقة من خلال إضافة شروط مكانية ضعيفة وشرط دلالية قوية يوجهان عملية توليد الصور من خلال دمج الدلالات النصية، والصورة المرجعية، والصورة الوجهية.

هناك ثلاثة سمات مميزة تفصل إطار InstantID عن إطارات توليد الصور النصية الحالية.

التوافق والتشغيل الفوري: بدلاً من التدريب على معاملات كاملة لنموذج UNet، يركز إطار InstantID على تدريب محول خفيف الوزن. ونتيجة لذلك، إطار InstantID متوافق وقابل للتشغيل مع النماذج المسبقة التدريب.

ضبط خالي: يلغي منهج إطار InstantID الحاجة إلى الضبط الدقيق منذ أن يحتاج فقط إلى توجيه مرجعي واحد للاستدلال، مما يجعل النموذج عمليًا واقتصاديًا للغاية للضبط الدقيق.
أداء متفوق: يظهر إطار InstantID مرونة عالية ودقة عالية منذ أن يتمكن من تقديم أداء على مستوى الدولة باستخدام صورة مرجعية واحدة فقط، قابلة للمقارنة مع أساليب التدريب التي تعتمد على صور مرجعية متعددة.

بشكل عام، يمكن تصنيف مساهمات إطار InstantID في النقاط التالية.

إطار InstantID هو أسلوب مبتكر لتعديل الهوية المحفوظة لنماذج الانحلال النصي إلى الصورة المسبقة التدريب بهدف جسور الفجوة بين الكفاءة والدقة.
إطار InstantID متوافق وقابل للتشغيل مع نماذج مخصصة مدربة باستخدام نفس نموذج الانحلال في هيكله، مما يسمح بالحفاظ على الهوية في النماذج المسبقة التدريب بدون أي تكلفة إضافية.

InstantID: المنهجية والهيكل

كما ذكرنا سابقًا، إطار InstantID هو محول خفيف الوزن فعال يمنح نماذج الانحلال النصي إلى الصورة المسبقة التدريب قابليات الحفاظ على الهوية بسهولة.

بالنسبة للهيكل، يبنى إطار InstantID على نموذج الانحلال المستقر، المعروف بقدرته على أداء عملية الانحلال بفعالية حسابية عالية في فضاء 潜ي منخفض الأبعاد بدلاً من فضاء البكسل مع محول تلقائي.对于 صورة الإدخال، يخضع المحول الأولي الصورة إلى تمثيل 潜ي مع عامل تنزيل وابعاد 潜ي. بالإضافة إلى ذلك، لتنظيف الضوضاء الطبيعية الموزعة مع ضوضاء 潜ي، وشرط، وخطوة زمنية حالية، تعتمد عملية الانحلال على مكون UNet لتنظيف الضوضاء. الشرط هو تضمين لدلالات نصية تم إنشاؤها باستخدام مكون معالج نصي مسبق التدريب من CLIP.

بالإضافة إلى ذلك، يستخدم إطار InstantID أيضًا مكون ControlNet قادر على إضافة تحكم مكاني إلى نموذج الانحلال المسبق التدريب كشرطه، يتجاوز بشكل كبير القدرات التقليدية لدلالات النص. مكون ControlNet يدمج هيكل UNet من إطار الانحلال المستقر باستخدام تكرار مدرب لمكون UNet. يحتوي تكرار مكون UNet على طبقات التconvolution صفرية في الكتلة الوسطى والكتلة المضمنة. على الرغم من تشابهها، يمتاز مكون ControlNet عن نموذج الانحلال المستقر؛ يختلفان في البند المتبقي الأخير. يضيف مكون ControlNet المعلومات المكانية مثل المواقف وخرائط العمق والرسومات وغيرها إلى الكتلة UNet، ويدمج هذه البقايا في الشبكة الأصلية.

يستمد إطار InstantID أيضًا الإلهام من IP-Adapter أو معالج الدلالة الصورية، الذي يقدم نهجًا جديدًا لتحقيق قدرات الدلالة الصورية التي تعمل بالتوازي مع الدلالات النصية دون الحاجة إلى تعديل نماذج الصور النصية الأصلية. يستخدم مكون IP-Adapter أيضًا استراتيجية انتباه متقاطع منفصلة تستخدم طبقات انتباه إضافية لدمج ميزات الصورة مع إبقاء المعاملات الأخرى غير متغيرة.

المنهجية

لإعطائك نظرة عامة سريعة، يهدف إطار InstantID إلى توليد صور مخصصة بأساليب أو مواقف مختلفة باستخدام صورة مرجعية واحدة فقط مع دقة عالية. يُظهر الشكل التالي نظرة عامة سريعة على إطار InstantID.

كما يمكن ملاحظة ذلك، إطار InstantID لديه ثلاثة مكونات أساسية:

مكون تضمين الهوية الذي يلتقط معلومات دلالية قوية للميزات الوجهية في الصورة.
مكون محول خفيف مع استراتيجية انتباه متقاطع منفصلة لتسهيل استخدام الصورة كدلالة بصرية.
مكون IdentityNet الذي يضمن الميزات المفصلة من الصورة المرجعية باستخدام تحكم مكاني إضافي.

تضمين الهوية

على عكس الأساليب الحالية مثل FaceStudio و PhotoMaker و IP-Adapter وغيرها التي تعتمد على معالج صورة مسبق التدريب من CLIP لاستخراج الدلالات البصرية، يركز إطار InstantID على دقة أعلى وتفاصيل دلالية أقوى في مهمة الحفاظ على الهوية. يُلاحظ أن القيود الذاتية لمكون CLIP تكمن بشكل رئيسي في عملية التدريب على بيانات غير محاذاة بشكل جيد، مما يعني أن الميزات المضمنة لمعالج CLIP تحافظ بشكل رئيسي على معلومات دلالية واسعة وغامضة مثل الألوان والنمط والتركيب. على الرغم من أن هذه الميزات يمكن أن تعمل كملحق عام لدلالات النص، إلا أنها لا تصلح لمهام الحفاظ على الهوية الدقيقة التي تضع تركيزًا قويًا على الدلالات القوية والدقة العالية.

المحول الصوري

تتمتع نماذج الانحلال النصي إلى الصورة المسبقة التدريب بقدرة على مهام الدلالة الصورية، وتعزز الدلالات النصية بشكل كبير، خاصة في السيناريوهات التي لا يمكن وصفها بشكل كافٍ بواسطة الدلالات النصية. يعتمد إطار InstantID على استراتيجية تشبه استراتيجية نموذج IP-Adapter للدلالة الصورية، التي تقدم نهجًا جديدًا لدعم الصور كدلالات الإدخال. ومع ذلك، على عكس التضمينات CLIP المنسقة بشكل خشن، يختلف إطار InstantID من خلال استخدام تضمينات الهوية كدلالات بصرية في محاولة لتحقيق دمج دلالة أكثر دقة وثراء.

IdentityNet

على الرغم من أن الأساليب الحالية قادرة على دمج الدلالات الصورية مع الدلالات النصية، يجادل إطار InstantID بأن هذه الأساليب تعزز فقط الميزات الخشنة مع مستوى من التكامل الذي لا يزال غير كافٍ لتوليد الصور المحفوظة للهوية. بالإضافة إلى ذلك، يُلاحظ أن إضافة رموز الصور والنص في طبقات الانتباه المتقاطع مباشرةً قد تؤدي إلى تقليل سيطرة رموز النص، ويمكن أن تؤدي محاولة تعزيز قوة رموز الصور إلى إعاقة قدرات رموز النص على مهام التحرير.

للمواجهة هذه التحديات، يختار إطار InstantID مكون ControlNet، وهو أسلوب بديل لتحويل الميزات الذي يستخدم المعلومات المكانية كمدخلات للمODULE القابل للتحكم، مما يسمح له بالتوافق مع إعدادات UNet في نماذج الانحلال.

التدريب والاستدلال

خلال مرحلة التدريب، يُحسن إطار InstantID معاملات مكونات IdentityNet والمحول الصوري مع تجميد معاملات نموذج الانحلال المسبق التدريب. يتم تدريب خط أنابيب InstantID الكامل على أزواج صورة-نص تampilkan مواضيع بشرية، ويتطلب هدفًا تدريبيًا مشابهًا لذلك المستخدم في إطار الانحلال المستقر مع شروط صورة محددة للمهمة.

InstantID: التجارب والنتائج

يطبق إطار InstantID نموذج الانحلال المستقر ويدربه على مجموعة بيانات LAION-Face، وهي مجموعة بيانات مفتوحة المصدر كبيرة الحجم تتكون من أكثر من 50 مليون زوج من الصور والنص. بالإضافة إلى ذلك، يجمع إطار InstantID أكثر من 10 ملايين صورة بشرية مع تلقيم آلي تم إنشاؤها تلقائيًا بواسطة نموذج BLIP2 لتعزيز جودة توليد الصور.

توليد الصور فقط

يستخدم نموذج InstantID دلالة فارغة لتوجيه عملية توليد الصور باستخدام فقط الصورة المرجعية، والنتائج بدون الدلالات موضحة في الصورة التالية.

تُظهر توليد “الدلالة الفارغة” كما هو موضح في الصورة أعلاه، قدرة إطار InstantID على الحفاظ على ميزات دلالية غنية مثل الهوية والعمر والتعابير بثبات.

أفكار ختامية

في هذا المقال، ناقشنا عن InstantID، وهو حل قائم على نموذج الانحلال لتوليد الصور. InstantID هو وحدة قابلة للتشغيل الفوري يدير توليد الصور والشخصنة ببراعة عبر أنماط مختلفة باستخدام صورة مرجعية واحدة فقط ويضمن دقة عالية. يركز إطار InstantID على توليد الصور المحفوظة للهوية الفورية، ويتصرف لجسور الفجوة بين الكفاءة والدقة العالية من خلال إدخال وحدة قابلة للتشغيل الفوري وبسيطة تتيح للإطار التعامل مع الشخصنة باستخدام صورة وجه واحدة فقط مع الحفاظ على دقة عالية.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.