בינה מלאכותית

הוראת AI להבין ולהשתמש בתמונות בשיח

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

חוקרים מדרום קוריאה פיתחו מאגר נתונים שנועד לסייע במחקר אודות הבנת ה-AI את הדרך שבה בני אדם משתמשים בתמונות בשיח, ולעזור למודלים של שפה טבעית להשתתף בפיתוח זה המאוד חדש בתקשורת אנושית.

המאמרא>, מ-KAIST ב-Daedeok Innopolis, מציין כי המחקר בנושא מערכות שיח מרובות-מודאליות בעשור האחרון הוגבל על ידי מאגרי נתונים ומתודולוגיות המתמקדות בתחומים שהם היקפיים לנושא, כגון שאילת שאלות חזותיותא> וכיתוב תמונותא>.

בגישות הישנות, תמונות מוערכות מחוץ להקשר הלקסיקלי של שיח, ללא הבנה של הדרך שבה השיח משתפר ומתפתח על ידי תגובות תמונות, וללא סכמה רב-תחומית לפענוח תרומות התרומות החזותיות לדיון.

תמונות כפנים ראשונות של שיח

רבות מהגישות הנ”ל עד כה היו יוזמות או פיתוחים מזרוע המחקר של Microsoft, שב-2017 גם בדקהא> את הנושא של שיחות רב-מודאליות שמתחילותי>א> על ידי תמונה, ולא משתמשות בתמונות באופן חופשי כרכיבי שיח.

כדי לפתור את המחסור בנתונים, החוקרים הדרום קוריאנים פיתחו מאגר נתונים של 45,000 דוגמאות שיח המערבות שימוש אד הוק בתמונות, ללא התמקדות בתמונות ‘מם’ ויראליותא>; האחרונות, אם כי תחום עניין במחקר שפה, הוא בעייתי פחות, משום שמשמעותן של תמונות מם ויראליות יכולה להיות מובנתא> יותר בקלות דרך אלפי שימושים בהקשר בפלטפורמות מדיה חברתית.

פיתוח איורים כתחליף לטקסט

כדי לפתח מתודולוגיה לתרגום דו-צדדי של מילים/ביטויים>תמונות, החוקרים הדרום קוריאנים אימנו מערכת לומדת מכונה להחליף חלקים משיח טקסטואלי לתוכן תמונות סמנטי.

[כותרת id=”attachment_176728″ align=”alignnone” width=”1200″] ארכיטקטורה של המערכת הקוריאנית ליצירת מאגר נתונים למחקר שיח מרובה-מודאלי. א> ארכיטקטורה של המערכת הקוריאנית ליצירת מאגר נתונים למחקר שיח מרובה-מודאלי.א> מקור: https://arxiv.org/pdf/2107.08685.pdf[/כותרת]

עיבוד מוקדם של הביטויים היעד היה המחיקה של מילות עצירהא> שעלולות למנוע ניבוי של התגובה הבאה בשיח, וקיצוץ של חילופים באיכות נמוכה דרך מסנני דמיון הקשר.

כדי לבדוק את היעילות של מאגר הנתונים, החוקרים הגדירו מודול לנבא את התור הבא בשיח, תוך התחשבות בהקשר של השיח והתמונות המעורבות.

[כותרת id=”attachment_176729″ align=”alignnone” width=”1200″] ממשק ה-GUI להערכה אנושית ששימש במחקר. ממשק ה-GUI להערכה אנושית ששימש במחקר.א>[/כותרת]

חמישה מאגרי נתונים חיצוניים שימשו כחומר בסיס למאגר 45k (שזמין ב-GitHubא>). שלושה הם אלמנטים טקסטואליים: DailyDialogא>י>א>, קבוצת טקסט מרובת-תורות מ-2017; ו-Facebook EmpatheticDialoguesא>י>א> וPersonaChatא>י>א>, שניהם מ-2018. שני מאגרי התמונות ששימשו היו MS-COCO וFlicker30kא>י>א>.

[כותרת id=”attachment_176730″ align=”alignnone” width=”1200″] זוגות תמונה/טקסט - סכמת JSON של ביטויים במאגר, המקושרים לתמונות (בדוגמה זו) מבסיס הנתונים החזותי של Microsoft. זוגות תמונה/טקסט – סכמת JSON של ביטויים במאגר, המקושרים לתמונות (בדוגמה זו) מבסיס הנתונים החזותי של Microsoft.א>[/כותרת]

החלפת טקסט לתמונה במערכת הייתה מופעלת על ידי רשת ההיגיון הסמנטי החזותיא> (VSRN), שפותחה ב-2019 באוניברסיטת Northeastern בבוסטון. VSRN הוגדרה לפעול על ביטויים שנבחרו באופן ידני ממאגרי הטקסט.

קביעת עקביות

עקביות של מאגרי הנתונים המקוריים הוקמה על ידי פיתוח שש צירופים של כל מאגר שיח, המתואמים למקרים בכל מאגר תמונות, ונבדקו במספר סבבים על ידי בני אדם.

הציון האנושי התבסס על שלושה קריטריונים: עקביות להקשר של החילוף; רלוונטיות של התמונה למושג המרכזי שאותו התמונה מנסה לבטא; והיקף שבו התמונה מכילה אובייקטים מפתח מהמשפט היעד.

בהתחשבות בקריטריונים האחרונים, ניתן לטעון כי הסכמה שהחוקרים החליטו עליה התעלמה בעיקר מהאפשרות של אפשרויות הומוריסטיות, סרקסטיות, מופשטות או מטאפיזיות למשמעות סמנטית של תמונה שעשויה להיות מוזרקת לשיח טקסטואלי.

העבודה היא עבודה ראשונית, והיא צריכה להתחיל במקום מסוים, בעוד מאמץ רב מושקע במקומות אחרים בתחום עיבוד שפה טבעית (NLP) למפות אפשרויות של סרקזםא>, בין היתר.

בדיקה

כדי לבדוק את אופרטיב המסגרת ליצירת נתונים, החוקרים השתמשו במודל אחזור תלת-חלקי המבוסס על Image-Chatא> של Facebook מ-2020. המודול כולל Resnext-101א> כמקודד תמונות; BERTא> של Google עבור מקודד הטקסט; ומודול האיחוד המותאם לאלו.

המערכת השיגה 50.35 ו-14.38 במשימות ניבוי המשפט הנוכחי והבא, ושיפרה את הבסיס לכל משימה.

לאחר מכן, שני חוקרים נדרשו ליצור 100 שיחות רב-מודאליות על ידי הכנסת תמונות לשיחות באופן ידני, וריצה של המערכת נגד שיחות אלו ‘אורגניות’ רב-מודאליות. המערכת הצליחה לנבא את המשפטים הנוכחיים והבאים עם מודעות גבוהה להקשר, אפילו עבור דוגמאות אלו אד הוק.

[כותרת id=”attachment_176731″ align=”alignnone” width=”1200″] תוצאות הבדיקה של מערכת יצירת מאגר הנתונים הרב-מודאלי הקוריאני, המראה קורלציה גבוהה ועקבית בין דמיון טקסט-תמונה לציונים אנושיים על אותם נתונים. א> תוצאות הבדיקה של מערכת יצירת מאגר הנתונים הרב-מודאלי הקוריאני, המראה קורלציה גבוהה ועקבית בין דמיון טקסט-תמונה לציונים אנושיים על אותם נתונים.א>[/כותרת]

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai