Connect with us

ألعاب الفوضى تحسن التفكير البصري للذكاء الاصطناعي

زاوية Anderson

ألعاب الفوضى تحسن التفكير البصري للذكاء الاصطناعي

mm
'An industrial robot attempting to solve a jigsaw puzzle. Besides one robotic arm with which it assembles the puzzle, the robot is not anthropomorphic , and views the jigsaw puzzle with a single camera similar to a surveillance camera UHQ, stock'. SDXL and Adobe Firefly V3.

تشير الأبحاث الجديدة إلى أن نماذج الذكاء الاصطناعي يمكن أن تصبح أكثر ذكاءً في الرؤية من خلال حل ألعاب الفوضى. يعمل إعادة ترتيب الصور والفيديوهات والمشاهد ثلاثية الأبعاد المضطربة على تحسين مهاراتها البصرية دون الحاجة إلى بيانات إضافية أو تسميات أو أدوات.

 

في الهرولة الحالية لدفع نماذج اللغة الكبيرة متعددة الوضع (MLLMs*) إلى الأمام ، هناك القليل من الانتصارات السهلة ولا مجال لوجبات الغداء المجانية.

على الرغم من أن العديد من إصدارات البرمجيات الحرة الصينية لعام 2025 المثيرة للإعجاب تقريرًا عن تكاليف تطوير وتشغيل أقل ، فإن الإصدارات الغربية تميل إلى رمي المزيد من الأموال في المشكلة: المزيد من حجم البيانات ، والمزيد من قوة الاستدلال ، والمزيد من الكهرباء (على الرغم من أننا لاحظنا مؤخرًا ليس المزيد من المحللين البشريين الفعليين ، منذ أن يكون ذلك مكلفًا للغاية حتى لثورة الذكاء الاصطناعي بمقياس تريليون دولار+).

في الأدبيات البحثية ، فإن معظم المناهج المزعومة “المجانية” لتطوير архيتكتур الذكاء الاصطناعي تُقدم تحسينات فقط طفيفة أو تحسينات في مجالات ليست الأكثر سعيًا لها.

التجميع

في حين أن هذا ليس بالضبط في تلك الفئة ، فإن التعاون الأكاديمي الجديد بين المؤسسات الصينية يزعم أنه قد حدد أن جعل نماذج اللغة الكبيرة متعددة الوضع تحل ألعاب الفوضى تحسن أدائها بشكل ملحوظ ، على الرغم من أن هذا النهج القائم على التعلم بالتعزيز سلفًا أدى إلى أداء ضعيف في هذا المجال ، وأنه لا يتطلب أي أنظمة إضافية أو نماذج مساعدة أو عمليات “مرفقة” أخرى:

Visual Jigsaw هو إطار تعليمي خودي بعد التدريب يُحسن من المهارات المرئية في نماذج اللغة الكبيرة متعددة الوضع. من خلال التدريب على مهام الفوضى عبر الصور والفيديوهات والبيانات ثلاثية الأبعاد ، تكتسب النماذج تصورًا دقيقًا ومكانيًا وتأليفًا في الصور ، وتحسن من التفكير الزمني في الفيديوهات ، وتفهمًا متقدمًا للجغرافيا في المشاهد ثلاثية الأبعاد. تُظهر مخططات الرادار في الصورة أعلاه مكاسب متسقة على أساس Qwen2.5-VL ، مع تعديل مقاييس القيمة لتحقيق الوضوح في كل معيار.

Visual Jigsaw هو إطار تعليمي خودي بعد التدريب يُحسن من المهارات المرئية في نماذج اللغة الكبيرة متعددة الوضع. من خلال التدريب على مهام الفوضى عبر الصور والفيديوهات والبيانات ثلاثية الأبعاد ، تكتسب النماذج تصورًا دقيقًا ومكانيًا وتأليفًا في الصور ، وتحسن من التفكير الزمني في الفيديوهات ، وتفهمًا متقدمًا للجغرافيا في المشاهد ثلاثية الأبعاد. Source: https://arxiv.org/pdf/2509.25190

النظام الذي صممه الباحثون يُسمى Visual Jigsaw ، ويتضمن تدريب نماذج اللغة الكبيرة متعددة الوضع الحالية على مواد تم تفتيتها وتبديدها عشوائيًا ، مثل لعبة الفوضى.

… (translation continues as per the original text, maintaining the same structure and formatting)

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai