الذكاء الاصطناعي

تعليم الذكاء الاصطناعي لفهم واستخدام الصور في الحوار

تم النشر 21 يوليو، 2021

تحديث 9 كانون الأول، 2022

مارتن أندرسون

قام باحثون من كوريا الجنوبية بتطوير مجموعة بيانات مصممة لمساعدة البحث في فهم الذكاء الاصطناعي للطريقة التي يستخدم بها البشر الصور في الحوار، ومساعدة نماذج اللغة الطبيعية على المشاركة في هذا التطور الحديث للغاية في الاتصالات البشرية.

استخدم ورقة، من KAIST في Daedeok Innopolis ، يلاحظ أن البحث في أنظمة الحوار متعدد الوسائط على مدى السنوات العشر الماضية قد تعرقل بسبب مجموعات البيانات والمنهجيات التي تركز على التخصصات التي هي هامشية للموضوع ، مثل إجابة السؤال المرئي و شرح الصورة.

في هذه الأساليب القديمة ، يتم تقييم الصور خارج السياق المعجمي للمحادثة ، دون فهم للطريقة التي يتم بها تحسين الحوار وتطويره من خلال استجابات الصور ، ولا يوجد مخطط عبر المجالات لفك تشفير مساهمات المساهمات المرئية في الخطاب.

الصور كأوجه من الدرجة الأولى للحوار

كانت العديد من الأساليب المذكورة أعلاه حتى الآن عبارة عن مبادرات أو تطورات من الذراع البحثية للذكاء الاصطناعي لشركة مايكروسوفت، والتي في عام 2017 أيضًا فحص موضوع المحادثات متعددة الوسائط بدأت بالصورة ، بدلاً من استخدام الصور بحرية كمكونات للحوار.

لمعالجة النقص في بيانات البحث ، طور الباحثون الكوريون الجنوبيون مجموعة بيانات من 45,000 حالة حوار تتضمن استخدامًا مخصصًا للصور ، دون التركيز على صور "ميم" فيروسية؛ هذا الأخير ، على الرغم من أن مجال الاهتمام بالبحوث اللغوية ، يمكن القول أنه أقل تحديًا ، لأن معنى الميمات الفيروسية يمكن استنتاجه بسهولة أكبر من خلال آلاف الاستخدامات في السياق على منصات الوسائط الاجتماعية.

تطوير الرسوم التوضيحية كبديل للنص

من أجل تطوير منهجية للترجمة الصوتية الثنائية للكلمة/العبارة> الصورة، قام الباحثون الكوريون الجنوبيون بتدريب نظام التعلم الآلي لاستبدال أجزاء من المحادثة القائمة على النص بمحتوى صورة ذي صلة لغويًا.

بنية النظام الكوري لتوليد مجموعة بيانات لأبحاث الحوار متعدد الوسائط. المصدر: https://arxiv.org/pdf/2107.08685.pdf

تضمنت المعالجة المسبقة للعبارات المستهدفة حذف كلمات التوقف قد يمنع ذلك التنبؤ بما يلي في المحادثة ، وتقليم التبادلات ذات الجودة الرديئة عبر مرشحات التشابه السياقية.

لاختبار مدى فائدة مجموعة البيانات، قام الباحثون بإعداد وحدة للتنبؤ بالمنعطف التالي في الحوار مع مراعاة سياق المحادثة والصور المشاركة.

واجهة المستخدم الرسومية للتقييم البشري المستخدمة في البحث.

تم استخدام خمس مجموعات بيانات خارجية كمواد أساسية لمجموعة البيانات التي يبلغ حجمها 45 ألفًا (وهي متاح على جيثب). ثلاثة عناصر قائمة على النص: الحوار اليومي، وهي مجموعة نصية متعددة الأدوار تم شرحها يدويًا من عام 2017؛ وفيسبوك الحوارات المتعاطفة و الدردشة الشخصية، كلاهما من 2018. مجموعتي البيانات المستندة إلى الصور المستخدمة هما MS-COCO و الرجفة.

أزواج الصورة / النص - مخطط JSON للعبارات في مجموعة البيانات ، المرتبطة بالصور (في هذا المثال) من قاعدة بيانات صور COCO من Microsoft.

أزواج الصور/النصوص – مخطط JSON للعبارات الموجودة في مجموعة البيانات، المرتبطة بالصور (في هذا المثال) من قاعدة بيانات صور COCO الخاصة بشركة Microsoft.

تم تشغيل استبدال النص إلى صورة للنظام بواسطة المدربين مسبقًا شبكة التفكير الدلالي المرئي (VSRN) ، تم تطويره في 2019 من جامعة نورث إيسترن في بوسطن. تم تعيين VSRN للعمل على العبارات المحددة مسبقًا يدويًا من مجموعات البيانات النصية المساهمة.

ترسيخ التماسك

تم إنشاء تماسك مجموعات البيانات المصدر من خلال تطوير ست مجموعات من كل مجموعة بيانات حوار ، مرتبطة بحالات في كل مجموعة بيانات للصور ، وتقييمها على مدى عدة جولات من قبل البشر.

استند التقييم البشري إلى ثلاثة معايير: الاتساق مع سياق التبادل. صلة الصورة بالمفهوم الأساسي الذي تحاول الصورة التعبير عنه ؛ ومدى احتواء الصورة على كائنات رئيسية من الجملة المستهدفة.

بالنظر إلى المعايير الأخيرة ، يمكن القول أن المخطط الذي قرر الباحثون بشأنه قد قلل إلى حد كبير من إمكانية وجود احتمالات روح الدعابة أو السخرية أو التجريدية أو الميتافيزيقية للمعنى الدلالي للصورة التي يمكن إدخالها في محادثة نصية.

ومع ذلك، يعد هذا عملًا أساسيًا، ويجب أن يبدأ من مكان ما، بينما يتم بذل جهود كبيرة في أماكن أخرى في قطاع معالجة اللغات الطبيعية (NLP) من أجل خريطة حالات السخرية، من بين أمثلة أخرى غير ملموسة لعلاقة الصورة / النص.

الاختبار

لاختبار إطار عمل توليد البيانات، استخدم الباحثون نموذج استرجاع مكون من ثلاثة أجزاء استنادًا إلى تقرير فيسبوك لعام 2020 صورة الدردشة بحث. تتكون الوحدة ريسنيكست-101 كمُشفِّر للصور؛ جوجل بيرت لتشفير النص ؛ ووحدة اندماج مخصصة لهؤلاء.

حقق النظام 50.35 و 14.38 في مهمة التنبؤ بالجملة الحالية والتالية ، مع تحسين خط الأساس لكل مهمة.

لاحقًا، كُلِّف باحثان بإنشاء 100 حوار متعدد الوسائط عن طريق إدراج صور في المحادثات يدويًا، وتشغيل النظام على هذه المحادثات متعددة الوسائط "العضوية". تمكّن النظام من التنبؤ بالتبادلات الحالية واللاحقة بوعي عالٍ بالسياق، حتى في هذه الأمثلة العشوائية.

نتائج اختبار نظام إنشاء مجموعة البيانات متعددة الوسائط الكورية ، والتي كشفت عن وجود علاقة عالية باستمرار بين تشابه النص إلى الصورة ودرجات الأسئلة المستندة إلى الإنسان على نفس البيانات.

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai