الذكاء الاصطناعي

تعليم الذكاء الاصطناعي لفهم واستخدام الصور في الحوار

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

قام باحثون من كوريا الجنوبية بتطوير مجموعة بيانات مصممة لمساعدة البحث في فهم الذكاء الاصطناعي للطريقة التي يستخدم بها البشر الصور في الحوار، ومساعدة نماذج اللغة الطبيعية للمشاركة في هذا التطور الحديث في الاتصالات البشرية.

الورقة الورقة، من KAIST في Daedeok Innopolis، تشير إلى أن البحث في أنظمة الحوار متعددة التعريف خلال العشر سنوات الماضية قد تعثرت بسبب مجموعات البيانات والمنهجيات التي تركز على التخصصات المحيطية بالموضوع، مثل الأسئلة البصرية وتعريف الصور.

في هذه المناهج القديمة، يتم تقييم الصور خارج السياق اللغوي للحوار، دون فهم للطريقة التي يتم بها تعزيز وتطوير الحوار بواسطة استجابات الصور، ولا يوجد مخطط متعددة المجالات لفك شفرة مساهمات المساهمات البصرية في النص.

الصور كأوجه رئيسية للحوار

كانت العديد من المناهج المذكورة أعلاه حتى الآن مبادرات أو تطورات من ذراع البحث في شركة Microsoft، التي في عام 2017 أيضًا فحصت موضوع الحوارات متعددة التعريف التي تبدأ بواسطة صورة، بدلاً من استخدام الصور بحرية كمكونات حوار.

لمعالجة نقص البيانات البحثية، قام الباحثون الكوريون الجنوبيين بتطوير مجموعة بيانات تضم 45.000 حالة حوار تتضمن استخدام الصور بطريقة عفوية، دون التركيز على صور الميمات الفيروسية؛ هذه الأخيرة، على الرغم من كونها مجالًا يثير الاهتمام في أبحاث اللغة، هي تحدي أقل، لأن معنى الميمات الفيروسية يمكن استخلاصه بسهولة أكبر من خلال آلاف الاستخدامات في سياقها على منصات وسائل التواصل الاجتماعي.

تطوير الرسومات كبديل للنص

为了 تطوير منهجية لترجمة الكلمات والعبارات إلى محتوى صورة семантиكيا، قام الباحثون الكوريون الجنوبيون بتدريب نظام تعلم آلي لاستبدال أجزاء من محادثة نصية بمحتوى صورة ذي صلة семантиكيا.

هندسة النظام الكوري لإنشاء مجموعة بيانات لأبحاث الحوار متعددة التعريف. مصدر: https://arxiv.org/pdf/2107.08685.pdf

تمت معالجة الجمل المستهدفة بإزالة الكلمات المحظورة التي قد تمنع التنبؤ بالدور التالي في المحادثة، وتنقية التبادل منخفض الجودة عبر مرشحات التشابه السياقي.

لاختبار فائدة مجموعة البيانات، قام الباحثون بضبط وحدة لتنبؤ الدور التالي في الحوار مع مراعاة سياق المحادثة والصور المشاركة.

واجهة التقييم البشري المستخدمة في البحث.

تم استخدام خمس مجموعات بيانات خارجية كمواد أساسية لمجموعة البيانات 45k (التي متاحة على GitHub). ثلاثة منها هي عناصر نصية: حوار يومي، مجموعة نصية متعددة الدورات تم تعليمها يدوياً من عام 2017؛ وحوارات تعاطفية ومحادثات شخصية من فيسبوك، كلاهما من عام 2018. كانت مجموعتي البيانات المعتمدة على الصور المستخدمة هما MS-COCO وFlicker30k.

أزواج الصور والنص – مخطط JSON للجمل في مجموعة البيانات، المرتبطة بالصور (في هذا المثال) من قاعدة بيانات الصور COCO من Microsoft.

تم تشغيل استبدال النص بالصورة للنظام بواسطة شبكة الاستدلال البصري السيميائي المسبقة التدريب (VSRN)، التي تم تطويرها في عام 2019 من جامعة نورث إيسترن في بوسطن. تم ضبط VSRN للعمل على جمل تم اختيارها يدوياً من مجموعات البيانات النصية المساهمة.

تحقيق الاتساق

تم تحقيق اتساق مجموعات البيانات الأصلية من خلال تطوير ستة مجموعات من كل مجموعة بيانات حوار، مرتبطة بمثيلاتها في كل مجموعة بيانات صورة، وتقييمها عبر عدة جولات بواسطة بشر.

كان التقييم البشري مبنيًا على ثلاثة معايير: الاتساق مع سياق التبادل؛ صلة الصورة بالconcept الأساسي الذي تحاول الصورة التعبير عنه؛ ومدى احتواء الصورة على كائنات رئيسية من الجملة المستهدفة.

باعتبار هذه المعايير، يمكن القول إن المخطط الذي قرر الباحثون اعتماده قد أهمل إلى حد كبير إمكانية احتمالات مضحكة أو ساخرة أو مجردة أو ميتافيزيقية للمعنى الدلالي للصورة التي قد يتم حقنها في محادثة نصية.

ومع ذلك، هذا هو عمل رائد، ويجب أن يبدأ من مكان ما، بينما تبذل جهود كبيرة في قطاع معالجة اللغة الطبيعية (NLP) لخريطة أمثلة على السخرية، من بين أمثلة أخرى أقل ملموسية للعلاقة بين الصورة والنص.

التجربة

为了 اختبار إطار توليد البيانات، استخدم الباحثون نموذج استرجاع ثلاثي القسم dựa على بحث Image-Chat من فيسبوك لعام 2020. يتكون الوحدة من Resnext-101 كمشفر صورة؛ وBERT من جوجل لمشفر النص؛ ووحدة دمج مخصصة لهذه.

حققت النظام 50.35 و14.38 في مهمة التنبؤ بالجملة الحالية والجملة التالية، مما يحسن على القاعدة لمهمة كل منهما.

لاحقًا، تم تكليف两个 باحثين بإنشاء 100 حوار متعدد التعريف عن طريق إدراج الصور في المحادثات يدوياً، و chạy النظام ضد هذه المحادثات متعددة التعريف “العضوية”. كان النظام قادرًا على التنبؤ بالتبادلات الحالية واللاحقة مع وعي عالٍ بالسياق حتى لأمثلة الحوارات متعددة التعريف هذه.

نتائج اختبار نظام توليد مجموعة بيانات متعددة التعريف الكوري، مما يظهر ارتباطًا عاليًا بين تشابه النص والصورة ودرجات الأسئلة القائمة على التقييم البشري على نفس البيانات.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai