اتصل بنا للحصول على مزيد من المعلومات

النمس: الرجوع والأرض في أي تفصيل

الذكاء الاصطناعي

النمس: الرجوع والأرض في أي تفصيل

mm
النمس: الرجوع والأرض في أي تفصيل

لا يزال تمكين الفهم المكاني في نماذج تعلم لغة الرؤية يمثل تحديًا بحثيًا أساسيًا. ويدعم هذا الفهم قدرتين أساسيتين: التأريض والإحالة. تُمكّن الإشارة النموذج من تفسير دلالات مناطق محددة بدقة، بينما يتضمن التأريض استخدام الأوصاف الدلالية لتوطين هذه المناطق.

قدم المطورون Ferret، وهو نموذج لغة كبير متعدد الوسائط (MLLM)، قادر على فهم الإشارة المكانية عبر أي تفصيل أو شكل في الصورة وتأريض أوصاف المفردات المفتوحة بدقة. يستخدم Ferret تمثيلاً هجينًا جديدًا يجمع بين الميزات المستمرة والإحداثيات المنفصلة لتمثيل مناطق الصورة. يتعامل جهاز أخذ العينات المرئي المدرك للمكان مع التباين المتفاوت في الأشكال، مما يسمح له بمعالجة مدخلات المنطقة المتنوعة مثل الأشكال الحرة والمربعات المحيطة والنقاط.

يُمكّن نهج فيريت من التفوق في مهام التأريض والإحالة التقليدية، والتفوق على أنظمة البرمجة متعددة الوسائط الأخرى في الاتصالات متعددة الوسائط التي تتطلب تحديد المواقع الجغرافية وتعتمد على المنطقة. تتناول هذه المقالة بنية فيريت ومنهجيته، مُسلّطةً الضوء على أدائه المذهل في مختلف مهام اللغات متعددة الوسائط. دعونا نستكشف هذا بمزيد من التفصيل.

النمس: الأداء المتفوق في إحالة المهام والتأريض

إن الإشارة في النموذج هي القدرة التي تسمح للنموذج بفهم دلالات مناطق معينة بدقة بينما التأريض يجعل من الضروري للنموذج استخدام الأوصاف الدلالية المحددة لتوطين المناطق. على الرغم من أنهما قد يختلفان في مهام كل منهما، إلا أن كلاً من الإحالة والتأريض لهما نفس المفهوم الأساسي: محاذاة الدلالات والمعلومات المكانية. ومع ذلك، على الرغم من مشاركة نفس المفهوم، فإن النماذج الحالية تتعلم التأريض والإحالة بشكل فردي. على الرغم من نجاح هذه الطريقة، إلا أنها تشكل عقبة أمام تحقيق قدرات شبيهة بالقدرات البشرية حيث يمكن للبشر أن يتعلموا من مهمة واحدة، ويطبقوا ما تعلموه على مهام أخرى بسلاسة، ويكونون قادرين على دمج قدرات التأريض/الإحالة بسهولة مع التفكير والحوار اليومي. يستلهم إطار Ferret من الفجوة المذكورة أعلاه في أطر MLLM الحالية ويدرس ثلاثة أسئلة رئيسية:

  1. كيفية توحيد قدرات التأريض والإحالة في الإطار، وكيف سيفيد انسجامها بعضها البعض؟
  2. يستخدم البشر أنواعًا متعددة الاستخدامات من المناطق مثل المربع والنقطة والخربشة والأشكال الحرة للإشارة؟ كيف تمثل هذه المناطق المتنوعة؟
  3. كيف يمكن جعل التأريض والإحالة بعد التعليمات قويًا ومفتوحًا، وهو أمر بالغ الأهمية لتطبيقاتها العملية وفي الوقت الفعلي؟

إطار عمل Ferret عبارة عن نموذج لغة كبير متعدد الوسائط ومرجعي جديد يحاول استهداف هذه الأسئلة. يختار إطار Ferret أ نموذج لغة كبير متعدد الوسائط كأساس لها نظرًا لرؤيتهم العالمية الرائعة وقدراتهم على فهم اللغة. علاوة على ذلك، لتوحيد قدرات التأريض والإحالة، يمثل إطار Ferret إحداثيات المناطق في شكل رقمي باللغة الطبيعية. ومع ذلك، من الناحية العملية، من غير الفعال استخدام إحداثيات الصندوق أو حتى النقاط المفردة لتمثيل أشكال المنطقة المتنوعة مثل الشخبطة أو الحدود أو المضلعات المعقدة لأن هذه الأشكال ضرورية لتعزيز الدقة والتفاعل العالمي مع النموذج البشري. لمعالجة هذه المشكلة، يستخدم إطار عمل Ferret أداة أخذ عينات بصرية مدركة للمكان والتي تكتسب المناطق المرئية للمناطق بغض النظر عن الشكل، وبالتالي التعامل مع تباين متفاوت في هذه الأشكال. يجمع الإطار بعد ذلك بين الميزات المرئية المستمرة والإحداثيات المنفصلة لتمثيل المناطق المرئية في الإدخال، مما يؤدي إلى إنشاء تمثيل منطقة مختلط في Ferret. 

ينشر إطار عمل Ferret الأساليب المذكورة أعلاه لحل المدخلات التي تمزج النص الحر مع المناطق المشار إليها، وهو قادر على إنشاء الإحداثيات لكل كائن مؤرض بسلاسة مع إنشاء نص لتأريض الكائنات المذكورة في المخرجات. ومن خلال القيام بذلك، يعد Ferret أول إطار عمل يعالج مناطق الإدخال ذات التشكيل الحر في نماذج اللغات الكبيرة متعددة الوسائط. علاوة على ذلك، يمتص إطار Ferret قدرات مفردات مفتوحة رائعة للتوطين المكاني والفهم، مما يسمح للإطار بتحقيق أداء فائق عند تقييمه على مهام التأريض والإحالة التقليدية. 

من خلال المضي قدمًا، يسعى إطار عمل Ferret إلى الإلهام من ثلاثة أطر عمل موجودة للذكاء الاصطناعي بما في ذلك نماذج اللغات الكبيرة متعددة الوسائط، وMLLMs للإحالة والتأريض، وتوحيد التأريض وفهم VL. 

أدى إدخال نماذج اللغات الكبيرة بما في ذلك GPT وDALL-E وPaLM وLLaMA وBLOOM إلى تغيير المشهد في أبحاث البرمجة اللغوية العصبية، مما أدى إلى تقدم كبير في نماذج اللغات متعددة الوسائط. ركزت نماذج اللغة متعددة الوسائط السابقة بشكل أساسي على إنشاء نصوص وصور على نطاق واسع مع بعض الأمثلة البارزة مثل PaLI وSimVLM وGIT وBLIP-2 وFLAMINGO وCM3 وPaLI-X. ومع ذلك، نظرًا لأن إطار عمل Flamingo حقق تكاملًا فعالاً لـ LLMs مع برنامج تشفير الصور CLIP المُدرب مسبقًا من خلال كتل الانتباه المتقاطعة، مما أدى إلى إمكانات تعليمية رائعة متعددة الوسائط في لقطات قليلة. يبحث البحث الحالي عن طرق لاستخدام نماذج اللغة الكبيرة المدربة مسبقًا لضبط التعليمات المرئية مع أمثلة بارزة miniGPT-4و Otter و InstructBLIP والمزيد. والأكثر من ذلك هو أن النماذج الحديثة مثل Emu وGILL أظهرت نجاحًا ملحوظًا في استخدام MLLMs لتوليد الصور واسترجاعها. يشير إطار عمل Ferret أيضًا إلى الأبحاث السابقة التي تركز على توحيد النص ومخرجات المربع المحيط لنماذج لغة الرؤية. 

النمس: المنهجية والهندسة المعمارية

تمثيلات المنطقة الهجينة

تعد أشكال النقطة والمربع والأشكال الحرة هي التنسيقات الثلاثة السائدة التي يستخدمها نموذج اللغة عند الإشارة إلى مناطق معينة. من ناحية، يمكن تمثيل تنسيق النقطة والمربع بدقة من خلال الإحداثيات، كما أن رسم خرائط الأشكال الحرة يمثل تحديًا بعض الشيء نظرًا لأن الأشكال الحرة متعددة الاستخدامات. نظرًا لكونها متعددة الاستخدامات، يمكن للأشكال الحرة أن تشمل مجموعة واسعة من المناطق بما في ذلك الأقنعة والمضلعات والخربشات. يعد استخدام الإحداثيات لتصوير الأشكال الحرة مهمة معقدة تعيق قدرة النموذج على تعلم كيفية إنشاء ارتباط بين المناطق والإحداثيات المقابلة. علاوة على ذلك، فإن استخدام الإحداثيات للأشكال الحرة يعد أمرًا مكلفًا وغامضًا من الناحية الحسابية. 

لمعالجة هذه المشكلة والتعميم عبر جميع التنسيقات الثلاثة، يقترح إطار عمل Ferret تمثيلاً منطقة هجينة تعمل على دمج الميزات المرئية المستمرة مع الإحداثيات المنفصلة للإشارة إلى منطقة معينة. 

بالنسبة للميزات المرئية المستمرة، لمنطقة معينة، يقوم إطار عمل Ferret أولاً بإنشاء قناع ثنائي ثنائي الأبعاد بنفس حجم الصورة، ويضع علامة على القيمة 2 داخل المنطقة المستهدفة أثناء تعيين القيمة 1 خارج المنطقة. يقوم النموذج بعد ذلك باستخراج القناع الثنائي مع خريطة ميزات الصورة المستخرجة، ثم يرسلها إلى أداة أخذ العينات المرئية ذات الوعي المكاني. 

معمار

تتكون بنية نموذج Ferret من ثلاثة مكونات رئيسية

  1. برنامج تشفير الصور لاستخراج تضمينات الصورة. 
  2. عينات مرئية واعية مكانيًا لاستخراج الميزات الإقليمية المستمرة. 
  3. نموذج لغة كبير لنمذجة ميزات النص والصورة والمنطقة معًا. 

يتم إدخال الصورة أولاً في برنامج التشفير المرئي المُدرب مسبقًا لاستخراج تضمينات الصورة. بالنسبة لمدخلات النص، يستخدم إطار العمل أولاً أداة رمز LLM مدربة مسبقًا لترميز تسلسل النص، ثم يقوم بإسقاط هذه الرموز المميزة في تضمينات النص. بالنسبة للمناطق المشار إليها، يُلحق Ferret رمزًا مميزًا خاصًا والإحداثيات كعنصر نائب للمعالم المستمرة بعد اسم المنطقة. إذا كان اسم المنطقة غير معروف أو كان من الصعب وصفه نتيجة لإدراج عدة كائنات، فإن إطار العمل يستخدم فقط اسم المنطقة أو المنطقة. 

أحد التحديات الرئيسية التي تواجه المناطق المشار إليها هو أن شكلها يمكن أن يكون مختلفًا تمامًا، مما يعني أنه يمكن أن يكون لها أشكال مختلفة، ولا تقتصر فقط على المربعات أو النقاط المستطيلة. لا يمكن معالجة المناطق المشار إليها ذات الأشكال غير المنتظمة بالطرق التقليدية مثل المعالجة المستندة إلى الشبكة بما في ذلك الانتباه إلى التصحيح أو تقنيات الالتواء. لمعالجة هذه المشكلة، يقترح إطار عمل Ferret أداة أخذ العينات المرئية ذات الوعي المكاني. بالنسبة لخريطة المعالم المستخرجة مع قناع المنطقة الثنائية، يقوم نموذج Ferret أولاً باختبار عدد N من النقاط بشكل عشوائي داخل قناع المنطقة الثنائية. 

لكل نقطة على حدة، يحصل النموذج على ميزته عن طريق إجراء الاستيفاء الثنائي. يتم بعد ذلك تغذية النقاط N في شلال من الكتل حيث تمر كل منها بثلاث مراحل مختلفة: أخذ العينات، والتجميع، والتجميع. في مرحلة أخذ العينات، يتم أخذ عينات من عدد ثابت من النقاط من عدد N من النقاط المتاحة باستخدام خوارزمية FPS أو Farthest Point Sampling التي تضمن التغطية الكافية. في الخطوة الثانية، لكل نقطة عينة، يبحث الإطار عن أقرب جيرانه من مجموعة نقاط N المتاحة. بالنسبة لكل مجموعة، يقوم النموذج بعد ذلك بدمج ميزات نقطة العينة مع النقاط المجاورة لها. في الخطوة الأخيرة، يقوم إطار عمل Ferret بإجراء تجميع أقصى لدمج ميزات k المجاورة في ميزة واحدة لتكون بمثابة تمثيل للنقطة التي تم أخذ عينات منها. من خلال تنفيذ هذه الخطوات الثلاث، يتم ترك إطار عمل Ferret بنقاط أقل ولكنه يتميز بمساحة ذات كثافة أعلى لأنه لا يشتمل فقط على ميزات الجيران المحليين ولكن أيضًا مواقعهم النسبية. 

إنشاء البيانات المرئية بمساعدة GPT

تعد بيانات ضبط تعليمات الحوار ذات أهمية بالغة بالنسبة للوسائط المتعددة نماذج اللغات الكبيرة فهي لا تساعد فقط في تحويل مجموعة البيانات الموجودة عن طريق القوالب، ولكنها تساعد النموذج أيضًا على فهم النية البشرية وتوليد الاستجابة المناسبة. تستخدم أغلبية MLLMs طريقة مطالبة قليلة اللقطات للحصول على بيانات ضبط التعليمات المرئية، حيث يوفر النموذج وصفًا نصيًا للمشاهد في الصورة إلى جانب الحوارات البشرية المشروحة كعروض توضيحية قليلة اللقطات. ومع ذلك، تركز طرق ضبط التعليمات الموجودة بشكل أساسي على وصف الصورة بأكملها دون تحديد المعلومات المتعلقة بالمكان بشكل صريح. يركز إطار عمل Ferret على المعرفة المستندة إلى المنطقة لجمع بيانات الإحالة وضبط التعليمات الأرضية في ثلاث خطوات. 

  1. بالإضافة إلى استخدام التسميات التوضيحية والكائنات العالمية، يوفر إطار العمل وصفًا رمزيًا للمشهد يصف العلاقة المادية بين التسميات التوضيحية للمنطقة والكائنات مع توفير إحداثياتها أيضًا. 
  2. بالنسبة للحوارات المشروحة بواسطة الإنسان، يضيف الإطار إحداثيات بعد الكائنات أو المناطق القابلة للتأريض إما في المدخلات أو المخرجات أو كليهما مع تركيز الحوارات بشكل أساسي على مناطق محددة تساعد في دفع نموذج اللغة ضمنيًا إلى اتباع أنماط مماثلة لتوليد حوار جديد. 
  3. قد يكون من الممكن ألا يتبع الحوار الناتج عن إطار العمل القواعد والأنماط وفقًا لتعليمات الأمثلة القليلة ومطالبات النظام. لمعالجة هذه المشكلة، يستخدم الإطار مرة أخرى نموذجًا لغويًا لتحسين الحوارات التي أنشأها النموذج في البداية. 

التعدين السلبي المكاني

أظهرت الأبحاث السابقة أن نماذج اللغات الكبيرة متعددة الوسائط لديها احتمالية عالية للإصابة بالهلوسة عند الإجابة على أسئلة نعم أو لا. للتأكد من أن نموذج Ferret لا يهلوس في ظروف مماثلة، يستخدم الإطار نهج التعدين السلبي المكاني مع توطين الفئة المكيف بالصورة وتوطين الفئة المكيف بالدلالات. تطلب كلتا الطريقتين من النموذج توطين فئات كائنات محددة تمكن النموذج من التعرف على غياب كائنات معينة في الصورة. 

النمس: النتائج والتجريب

لتحليل أدائه، يتم تقييم إطار عمل Ferret على أساس معايير التأريض والإحالة التقليدية، وبعد ذلك يتم تقييم الإطار في مهمة دردشة متعددة الوسائط أكثر تعقيدًا واختبار قدرات الإحالة والإحالة على الأرض. 

يتم تقييم قدرة النموذج على فهم الإحالة من خلال مدى دقة النموذج في فهم دلالات المنطقة المشار إليها في ضوء المنطقة المشار إليها في الصورة أو السؤال. لقياس دقة النموذج، يتم أخذ الأشياء والدلالات الأساسية في الاعتبار أولاً لأنها ليست أساسية فحسب، بل يسهل تعريفها أيضًا. لتقليد التنوع على المستوى البشري، يستبدل إطار العمل موقع الكائن داخل الصورة بشكل حر ومربع ونقطة. بالنسبة للشكل الحر، يقوم النموذج بإنشاء حدود بشكل عشوائي داخل كائن Ground Truth للمحاكاة. بالنسبة للمربع، يستخدم إطار عمل Ferret المربع المحيط بالحقيقة الأرضية الذي يوفره مكون LVIS. أخيرًا، بالنسبة للنقطة، يقوم النموذج بشكل عشوائي باختبار نقطة داخل كائن الحقيقة الأرضية والتي تكون أيضًا قريبة من حدود كائن الحقيقة الأرضية. يتم عرض النتائج على الأنواع الثلاثة للإحالة في الصورة التالية. 

يُظهر إطار عمل Ferret أداءً رائعًا في مهام الحوار المرجعي، مما يفسح المجال للتكامل مع مهام التعلم المرئي المختلفة، خاصة تلك التي لها مخرجات أساسية. لتقييم قدرة التأريض الخاصة به، يُخضع إطار عمل Ferret نفسه أولاً لقياس مهام التأريض المرئي باستخدام نموذج توليدي. يقوم الإطار بعد ذلك بتقييم قدرته على مهام التسميات التوضيحية المؤرضة لقياس المحاذاة بين المناطق والكلمات. 

في مهام التأريض المرئي، يهدف إطار العمل إلى توصيل استعلامات اللغة إلى مناطق محاذية من الصورة، وكما هو واضح في الصورة التالية، يُظهر إطار عمل Ferret أداءً رائعًا عبر جميع المعايير، والأداء مشابهًا لما تم تحقيقه بواسطة طرق الضبط المتخصصة. 

بالنسبة لمهام التسميات التوضيحية المؤرضة، يحتاج النموذج إلى إنشاء تعليق، ثم ربط العبارات الاسمية التي تم إنشاؤها بمناطق الصورة. يتكون التنبؤ النهائي الذي أجراه النموذج من ثلاثة مكونات: المناطق المرئية كمربعات، والتسميات التوضيحية النصية، والمحاذاة الأرضية بين المربعات والكلمات. تظهر النتائج في الصورة التالية، وكما هو واضح، فإن الإطار يقدم أداءً مشابهًا لأحدث الأساليب. 

أخيرًا، تعد الدردشة متعددة الوسائط واحدة من أكثر القدرات المرغوبة داخل MLLM، ويقوم MLLM الحاليون في المقام الأول بتقييم الأوصاف التفصيلية والمحادثة والتفكير المعقد باستخدام نموذج اللغة كحكم. ومع ذلك، نظرًا لعدم قيام أي مجموعة بيانات بتقييم الدردشة متعددة الوسائط من خلال إجراءات الإحالة أو التأريض الإلزامية، فإن ذلك يترك فجوة. لسد هذه الفجوة، يغطي إطار عمل Ferret ثلاثة أسئلة تعتمد على المنطقة لتقييم إمكانات الإحالة والتأريض الخاصة به في مهام الدردشة متعددة الوسائط. وتظهر النتائج في الصورة التالية. 

وأخيرًا، تتم مقارنة إطار عمل Ferret مباشرةً مع أحدث إطار عمل GPT، وتظهر النتائج أدناه. 

الخلاصة

في هذه المقالة، تحدثنا عن Ferret، وهو نموذج لغة كبير متعدد الوسائط يُظهر قدرات أساسية وإحالات رائعة. يمكن أن يشير إطار عمل Ferret إلى مناطق الصورة بغض النظر عن شكلها، ويمكنه إنشاء أساس للنص الذي يتنبأ به النموذج تلقائيًا. يستخدم Ferret أداة أخذ عينات بصرية ذات وعي مكاني قادرة على التعامل مع التباين المتفاوت الذي تظهره الأشكال المختلفة لاستخراج الميزات المستمرة للمناطق متعددة الاستخدامات. ونتيجة لذلك، يمكن لإطار عمل Ferret إدخال مدخلات منطقة متنوعة بما في ذلك الأشكال الحرة والمربعات المحيطة والنقاط. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.