رطم InstantID: جيل يحافظ على الهوية بدون طلقة في ثوانٍ - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

InstantID: جيل الحفاظ على الهوية بدون طلقة في ثوانٍ

mm

تم النشر

 on

شهدت تقنية توليد الصور المدعومة بالذكاء الاصطناعي نموًا ملحوظًا في السنوات القليلة الماضية منذ ظهور نماذج كبيرة لنشر الصور مثل DALL-E وGLIDE وStable Diffusion وImagen والمزيد. على الرغم من أن نماذج الذكاء الاصطناعي لتوليد الصور تتمتع ببنية وأساليب تدريب فريدة من نوعها، إلا أنها تشترك جميعًا في نقطة محورية مشتركة: إنشاء صور مخصصة وشخصية تهدف إلى إنشاء صور بمعرف شخصية وموضوع وأسلوب متسق على أساس الصور المرجعية. نظرًا لقدراتها التوليدية الرائعة، وجدت أطر الذكاء الاصطناعي الحديثة لتوليد الصور تطبيقات في مجالات تشمل الرسوم المتحركة للصور، والواقع الافتراضي، والتجارة الإلكترونية، وصور الذكاء الاصطناعي، والمزيد. ومع ذلك، على الرغم من قدراتها التوليدية الرائعة، فإن هذه الأطر جميعها تشترك في عقبة مشتركة، حيث أن غالبيتها غير قادرة على إنشاء صور مخصصة مع الحفاظ على تفاصيل الهوية الدقيقة للأشياء البشرية. 

يعد إنشاء صور مخصصة مع الحفاظ على التفاصيل المعقدة أمرًا بالغ الأهمية خاصة في مهام تحديد هوية الوجه البشري التي تتطلب مستوى عالٍ من الدقة والتفاصيل ودلالات دقيقة عند مقارنتها بمهام إنشاء صور الكائن العامة التي تركز بشكل أساسي على الأنسجة والألوان ذات الحبيبات الخشنة. علاوة على ذلك، تطورت أطر تركيب الصور المخصصة في السنوات الأخيرة مثل LoRA وDreamBooth وTextual Inversion والمزيد بشكل ملحوظ. ومع ذلك، لا تزال نماذج الذكاء الاصطناعي المولدة للصور الشخصية غير مثالية للنشر في سيناريوهات العالم الحقيقي نظرًا لأنها تتطلب متطلبات تخزين عالية، وتتطلب صورًا مرجعية متعددة، وغالبًا ما تحتاج إلى عملية ضبط دقيقة طويلة. من ناحية أخرى، على الرغم من أن الأساليب الحالية القائمة على تضمين المعرف لا تتطلب سوى مرجع أمامي واحد، إلا أنها إما تفتقر إلى التوافق مع النماذج المدربة مسبقًا المتاحة للجمهور، أو أنها تتطلب عملية ضبط دقيقة مفرطة عبر العديد من المعلمات، أو أنها تفشل في الحفاظ على مستويات عالية من المعرفة. إخلاص الوجه. 

ولمواجهة هذه التحديات، وتعزيز قدرات إنشاء الصور بشكل أكبر، سنتحدث في هذه المقالة عن InstantID، وهو حل قائم على نموذج الانتشار لإنشاء الصور. InstantID عبارة عن وحدة توصيل وتشغيل تتعامل مع إنشاء الصور وتخصيصها ببراعة عبر أنماط مختلفة باستخدام صورة مرجعية واحدة فقط وتضمن أيضًا دقة عالية. الهدف الأساسي من هذه المقالة هو تزويد قرائنا بفهم شامل للأسس الفنية ومكونات إطار عمل InstantID حيث سنلقي نظرة تفصيلية على بنية النموذج وعملية التدريب وسيناريوهات التطبيق. اذا هيا بنا نبدأ.

InstantID: إنشاء الصور بدون لقطة مع الحفاظ على الهوية


ساهم ظهور نماذج تحويل النص إلى صورة بشكل كبير في تقدم تكنولوجيا توليد الصور. الهدف الأساسي من هذه النماذج هو التخصيص والإنشاء الشخصي، وإنشاء صور ذات موضوع ونمط ومعرف شخصية متسق باستخدام صورة مرجعية واحدة أو أكثر. لقد أدت قدرة هذه الأطر على إنشاء صور متسقة إلى إنشاء تطبيقات محتملة في صناعات مختلفة بما في ذلك الرسوم المتحركة للصور وإنشاء صور الذكاء الاصطناعي والتجارة الإلكترونية والواقع الافتراضي والمعزز وغير ذلك الكثير. 

ومع ذلك، على الرغم من قدراتها الرائعة، تواجه هذه الأطر تحديًا أساسيًا: فهي غالبًا ما تكافح من أجل إنشاء صور مخصصة تحافظ على التفاصيل المعقدة للمواضيع البشرية بدقة. تجدر الإشارة إلى أن إنشاء صور مخصصة بتفاصيل جوهرية يعد مهمة صعبة نظرًا لأن هوية الوجه البشري تتطلب درجة أعلى من الإخلاص والتفاصيل إلى جانب دلالات أكثر تقدمًا عند مقارنتها بالكائنات أو الأنماط العامة التي تركز بشكل أساسي على الألوان أو الأنسجة الخشنة. تعتمد نماذج تحويل النص إلى صورة الحالية على أوصاف نصية تفصيلية، وتواجه صعوبات في تحقيق صلة دلالية قوية لتوليد صور مخصصة. علاوة على ذلك، تضيف بعض النصوص الكبيرة المدربة مسبقًا إلى أطر الصور عناصر تحكم في التكييف المكاني لتعزيز إمكانية التحكم، وتسهيل التحكم الهيكلي الدقيق باستخدام عناصر مثل أوضاع الجسم، وخرائط العمق، والرسومات التي يرسمها المستخدم، وخرائط التجزئة الدلالية، والمزيد. ومع ذلك، على الرغم من هذه الإضافات والتحسينات، فإن هذه الأطر قادرة على تحقيق دقة جزئية فقط للصورة المولدة للصورة المرجعية. 

للتغلب على هذه العقبات، يركز إطار عمل InstantID على تركيب الصور الفوري الذي يحافظ على الهوية، ويحاول سد الفجوة بين الكفاءة والدقة العالية من خلال تقديم وحدة التوصيل والتشغيل البسيطة التي تسمح لإطار العمل بالتعامل مع تخصيص الصورة باستخدام صورة وجه واحدة فقط. مع الحفاظ على الدقة العالية. علاوة على ذلك، للحفاظ على هوية الوجه من الصورة المرجعية، يقوم إطار عمل InstantID بتنفيذ برنامج تشفير وجه جديد يحتفظ بتفاصيل الصورة المعقدة عن طريق إضافة شروط مكانية ودلالية قوية ضعيفة توجه عملية إنشاء الصورة من خلال دمج المطالبات النصية والصورة المميزة وصورة الوجه. . 

هناك ثلاث ميزات مميزة تفصل إطار عمل InstantID من النص الموجود إلى أطر إنشاء الصور. 

  • التوافق وقابلية التوصيل: بدلاً من التدريب على المعلمات الكاملة لإطار عمل UNet، يركز إطار InstantID على تدريب محول خفيف الوزن. ونتيجة لذلك، فإن إطار عمل InstantID متوافق وقابل للتوصيل مع النماذج الحالية المدربة مسبقًا. 
  • ضبط خالية: تلغي منهجية إطار InstantID متطلبات الضبط الدقيق لأنها تحتاج فقط إلى نشر أمامي واحد للاستدلال، مما يجعل النموذج عمليًا واقتصاديًا للغاية للضبط الدقيق. 
  • أداء خارق: يُظهر إطار InstantID مرونة وإخلاصًا عاليين لأنه قادر على تقديم أداء متطور باستخدام صورة مرجعية واحدة فقط، مقارنة بالطرق القائمة على التدريب التي تعتمد على صور مرجعية متعددة. 

بشكل عام، يمكن تصنيف مساهمات إطار عمل InstantID في النقاط التالية. 

  1. يعد إطار عمل InstantID طريقة تكيف مبتكرة للحفاظ على المعرف لنماذج نشر النص إلى الصور المدربة مسبقًا بهدف سد الفجوة بين الكفاءة والإخلاص. 
  2. إطار عمل InstantID متوافق وقابل للتوصيل مع نماذج مخصصة مضبوطة بدقة باستخدام نفس نموذج الانتشار في بنيته مما يسمح بالحفاظ على المعرف في النماذج المدربة مسبقًا دون أي تكلفة إضافية. 

InstantID: المنهجية والهندسة المعمارية

كما ذكرنا سابقًا، يعد إطار عمل InstantID محولًا فعالاً وخفيف الوزن يمنح النص المدرب مسبقًا لنماذج نشر الصور ذات إمكانيات الحفاظ على المعرف دون عناء. 

عند الحديث عن البنية، تم إنشاء إطار عمل InstantID فوق نموذج الانتشار المستقر، المشهور بقدرته على إجراء عملية الانتشار بكفاءة حسابية عالية في مساحة كامنة منخفضة الأبعاد بدلاً من مساحة البكسل باستخدام جهاز تشفير تلقائي. بالنسبة لصورة مُدخلة، يقوم المشفر أولاً بتعيين الصورة لتمثيل كامن مع عامل الاختزال والأبعاد الكامنة. علاوة على ذلك، لتقليل الضوضاء الموزعة بشكل طبيعي مع الضوضاء الكامنة والحالة والخطوة الزمنية الحالية، تعتمد عملية الانتشار مكون UNet لتقليل الضوضاء. الشرط عبارة عن تضمين للمطالبات النصية التي يتم إنشاؤها باستخدام مكون تشفير النص CLIP الذي تم تدريبه مسبقًا. 

علاوة على ذلك، يستخدم إطار InstantID أيضًا مكون ControlNet القادر على إضافة التحكم المكاني إلى نموذج نشر مُدرب مسبقًا كشرط له، ويمتد إلى ما هو أبعد من القدرات التقليدية للمطالبات النصية. يدمج مكون ControlNet أيضًا بنية UNet من إطار Stable Diffusion باستخدام نسخة متماثلة مدربة لمكون UNet. تتميز النسخة المتماثلة لمكون UNet بطبقات تلافيفية صفرية داخل الكتل الوسطى وكتل التشفير. على الرغم من أوجه التشابه بينهما، فإن مكون ControlNet يميز نفسه عن نموذج الانتشار المستقر؛ وكلاهما يختلفان في البند المتبقي الأخير. يقوم مكون ControlNet بتشفير معلومات الحالة المكانية مثل الوضعيات وخرائط العمق والرسومات والمزيد عن طريق إضافة البقايا إلى كتلة UNet، ثم دمج هذه البقايا في الشبكة الأصلية. 

يستمد إطار عمل InstantID أيضًا الإلهام من IP-Adapter أو Image Prompt Adapter الذي يقدم أسلوبًا جديدًا لتحقيق إمكانات مطالبات الصور التي تعمل بالتوازي مع المطالبات النصية دون الحاجة إلى تعديل النص الأصلي إلى نماذج صور. يستخدم مكون IP-Adapter أيضًا إستراتيجية فريدة من نوعها لفصل الانتباه المتبادل والتي تستخدم طبقات إضافية من الانتباه المتبادل لتضمين ميزات الصورة مع ترك المعلمات الأخرى دون تغيير. 

آلية العمل

لإعطائك نظرة عامة مختصرة، يهدف إطار عمل InstantID إلى إنشاء صور مخصصة بأنماط أو أوضاع مختلفة باستخدام صورة معرف مرجعية واحدة فقط بدقة عالية. يقدم الشكل التالي نظرة عامة مختصرة على إطار عمل InstantID. 

كما يمكن ملاحظته، يحتوي إطار عمل InstantID على ثلاثة مكونات أساسية:

  1. مكون تضمين المعرف الذي يلتقط معلومات دلالية قوية لملامح الوجه في الصورة. 
  2. وحدة معتمدة خفيفة الوزن تحتوي على مكون انتباه متقاطع منفصل لتسهيل استخدام الصورة كموجه مرئي. 
  3. مكون IdentityNet الذي يقوم بتشفير الميزات التفصيلية من الصورة المرجعية باستخدام التحكم المكاني الإضافي. 

تضمين الهوية

على عكس الأساليب الحالية مثل FaceStudio وPhotoMaker وIP-Adapter وغيرها التي تعتمد على برنامج تشفير صور CLIP مُدرب مسبقًا لاستخراج المطالبات المرئية، يركز إطار عمل InstantID على الدقة المحسنة والتفاصيل الدلالية الأقوى في مهمة الحفاظ على المعرف. تجدر الإشارة إلى أن القيود المتأصلة في مكون CLIP تكمن في المقام الأول في عملية التدريب على البيانات ضعيفة المحاذاة مما يعني أن الميزات المشفرة لمشفر CLIP تلتقط في المقام الأول معلومات دلالية واسعة وغامضة مثل الألوان والأسلوب والتركيب. على الرغم من أن هذه الميزات يمكن أن تكون بمثابة ملحق عام لتضمين النص، إلا أنها ليست مناسبة لمهام الحفاظ على المعرفات الدقيقة التي تركز بشدة على دلالات قوية ودقة عالية. علاوة على ذلك، أثبتت الأبحاث الحديثة في نماذج تمثيل الوجه وخاصة فيما يتعلق بالتعرف على الوجه كفاءة تمثيل الوجه في المهام المعقدة بما في ذلك إعادة بناء الوجه والتعرف عليه. بناءً على ذلك، يهدف إطار عمل InstantID إلى الاستفادة من نموذج وجه مُدرب مسبقًا لاكتشاف واستخراج تضمينات معرف الوجه من الصورة المرجعية، وتوجيه النموذج لتوليد الصورة. 

محول الصور

قدرة نص مدرب مسبقًا لنماذج نشر الصور تعمل مهام المطالبة بالصور على تحسين المطالبات النصية بشكل كبير، خاصة بالنسبة للسيناريوهات التي لا يمكن وصفها بشكل مناسب بواسطة المطالبات النصية. يتبنى إطار عمل InstantID إستراتيجية تشبه تلك التي يستخدمها نموذج IP-Adapter للمطالبة بالصور، والتي تقدم وحدة تكيفية خفيفة الوزن مقترنة بمكون انتباه متقاطع منفصل لدعم الصور كمطالبات إدخال. ومع ذلك، على عكس تضمينات CLIP المحاذاة بشكل خشن، يتباعد إطار عمل InstantID عن طريق استخدام تضمينات المعرف كما تطالب الصورة في محاولة لتحقيق تكامل سريع غني لغويًا وأكثر دقة. 

هوية نت

على الرغم من أن الأساليب الحالية قادرة على دمج المطالبات بالصور مع المطالبات النصية، إلا أن إطار عمل InstantID يقول إن هذه الأساليب تعمل فقط على تحسين الميزات الخشنة بمستوى من التكامل غير كافٍ لإنشاء صورة تحافظ على المعرف. علاوة على ذلك، فإن إضافة الرموز المميزة للصورة والنص في طبقات الانتباه المتقاطع مباشرة تميل إلى إضعاف التحكم في الرموز المميزة للنص، وقد تؤدي محاولة تعزيز قوة الرموز المميزة للصورة إلى إضعاف قدرات الرموز المميزة للنص في مهام التحرير. ولمواجهة هذه التحديات، يختار إطار InstantID استخدام ControlNet، وهي طريقة بديلة لتضمين الميزات تستخدم المعلومات المكانية كمدخل للوحدة القابلة للتحكم، مما يسمح لها بالحفاظ على الاتساق مع إعدادات UNet في نماذج النشر. 

يقوم إطار عمل InstantID بإجراء تغييرين على بنية ControlNet التقليدية: بالنسبة للمدخلات الشرطية، يختار إطار عمل InstantID 5 نقاط مفاتيح للوجه بدلاً من نقاط مفاتيح الوجه OpenPose الدقيقة. ثانيًا، يستخدم إطار عمل InstantID تضمينات المعرف بدلاً من المطالبات النصية كشروط لطبقات الاهتمام المتبادل في بنية ControlNet. 

التدريب والاستدلال

أثناء مرحلة التدريب، يقوم إطار InstantID بتحسين معلمات IdentityNet ومحول الصورة أثناء تجميد معلمات نموذج النشر المُدرب مسبقًا. يتم تدريب مسار InstantID بأكمله على أزواج الصور والنصوص التي تتميز بموضوعات بشرية، ويستخدم هدفًا تدريبيًا مشابهًا لذلك المستخدم في إطار النشر المستقر مع ظروف صورة محددة للمهمة. أهم ما يميز طريقة تدريب InstantID هو الفصل بين طبقات الانتباه المتقاطعة للصورة والنص داخل محول موجه الصورة، وهو خيار يسمح لإطار InstantID بضبط أوزان ظروف الصورة هذه بمرونة وبشكل مستقل، وبالتالي ضمان استهداف أكثر تحكمًا وتحكمًا. عملية الاستدلال والتدريب. 

المعرف الفوري: التجارب والنتائج

يقوم إطار عمل InstantID بتنفيذ Stable Diffusion وتدريبه على LAION-Face، وهي مجموعة بيانات واسعة النطاق مفتوحة المصدر تتكون من أكثر من 50 مليون زوج من الصور والنصوص. بالإضافة إلى ذلك، يجمع إطار InstantID أكثر من 10 ملايين صورة بشرية من خلال عمليات تلقائية يتم إنشاؤها تلقائيًا بواسطة نموذج BLIP2 لزيادة تحسين جودة توليد الصور. يركز إطار عمل InstantID بشكل أساسي على صور الشخص الواحد، ويستخدم نموذج وجه مُدرب مسبقًا لاكتشاف واستخراج تضمينات معرف الوجه من الصور البشرية، وبدلاً من تدريب مجموعات بيانات الوجه المقصوصة، يقوم بتدريب الصور البشرية الأصلية. علاوة على ذلك، أثناء التدريب، يقوم إطار عمل InstantID بتجميد النص المدرب مسبقًا إلى نموذج الصورة، ويقوم فقط بتحديث معلمات IdentityNet وImage Adaptor. 

صورة فقط الجيل

يستخدم نموذج InstantID موجهًا فارغًا لتوجيه عملية إنشاء الصورة باستخدام الصورة المرجعية فقط، ويتم عرض النتائج بدون المطالبات في الصورة التالية. 

يوضح إنشاء "المطالبة الفارغة" كما هو موضح في الصورة أعلاه قدرة إطار InstantID على الحفاظ على ميزات الوجه الدلالية الغنية مثل الهوية والعمر والتعبير بقوة. ومع ذلك، تجدر الإشارة إلى أن استخدام المطالبات الفارغة قد لا يكون قادرًا على تكرار النتائج على دلالات أخرى مثل الجنس بدقة. علاوة على ذلك، في الصورة أعلاه، تستخدم الأعمدة من 2 إلى 4 صورة وموجهًا، وكما هو واضح، فإن الصورة التي تم إنشاؤها لا تُظهر أي تدهور في قدرات التحكم في النص، كما أنها تضمن اتساق الهوية. أخيرًا، تستخدم الأعمدة من 5 إلى 9 صورة وتحكمًا سريعًا ومكانيًا، مما يوضح توافق النموذج مع نماذج التحكم المكاني المدربة مسبقًا مما يسمح لنموذج InstantID بتقديم عناصر التحكم المكانية بمرونة باستخدام مكون ControlNet المدرب مسبقًا. 

ومن الجدير بالذكر أيضًا أن عدد الصور المرجعية له تأثير كبير على الصورة المولدة، كما هو موضح في الصورة أعلاه. على الرغم من أن إطار عمل InstantID قادر على تقديم نتائج جيدة باستخدام صورة مرجعية واحدة، فإن الصور المرجعية المتعددة تنتج صورة ذات جودة أفضل نظرًا لأن إطار عمل InstantID يأخذ متوسط ​​تضمينات المعرف كمطالبة للصور. من الضروري مقارنة إطار عمل InstantID بالطرق السابقة التي تولد صورًا مخصصة باستخدام صورة مرجعية واحدة. يقارن الشكل التالي النتائج التي تم إنشاؤها بواسطة إطار عمل InstantID والنماذج الحديثة الحالية لإنشاء صور مخصصة ذات مرجع واحد. 

كما هو واضح، فإن إطار عمل InstantID قادر على الحفاظ على خصائص الوجه بفضل تضمين المعرف الذي يحمل بطبيعته معلومات دلالية غنية، مثل الهوية والعمر والجنس. سيكون من الآمن أن نقول إن إطار عمل InstantID يتفوق على الأطر الموجودة في إنشاء الصور المخصصة لأنه قادر على الحفاظ على الهوية البشرية مع الحفاظ على التحكم والمرونة الأسلوبية. 

افكار اخيرة

في هذه المقالة، تحدثنا عن InstantID، وهو حل قائم على نموذج الانتشار لإنشاء الصور. InstantID عبارة عن وحدة توصيل وتشغيل تتعامل مع إنشاء الصور وتخصيصها ببراعة عبر أنماط مختلفة باستخدام صورة مرجعية واحدة فقط وتضمن أيضًا دقة عالية. يركز إطار عمل InstantID على تركيب الصور الفوري الذي يحافظ على الهوية، ويحاول سد الفجوة بين الكفاءة والدقة العالية من خلال تقديم وحدة التوصيل والتشغيل البسيطة التي تسمح للإطار بالتعامل مع تخصيص الصورة باستخدام صورة وجه واحدة فقط مع الحفاظ على الدقة العالية.

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.