ปัญญาประดิษฐ์

การสอน AI ให้เข้าใจและใช้ภาพในบทสนทนา

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

นักวิจัยจากประเทศเกาหลีใต้ได้พัฒนาเซตข้อมูลที่ออกแบบมาเพื่อช่วยให้การวิจัยเกี่ยวกับการทำความเข้าใจของ AI ในวิธีที่มนุษย์ใช้ภาพในบทสนทนา และเพื่อช่วยให้โมเดลภาษาที่เป็นธรรมชาติสามารถเข้าร่วมในความก้าวหน้าล่าสุดนี้ในด้านการสื่อสารของมนุษย์

บทความ จาก KAIST ที่ Daedeok Innopolis ระบุว่าการวิจัยเกี่ยวกับระบบสนทนาที่มีหลายโหมดในช่วงสิบปีที่ผ่านมาได้รับอิทธิพลจากเซตข้อมูลและวิธีการที่มุ่งเน้นไปที่สาขาที่อยู่นอกหัวข้อนี้ เช่น การถามคำถามด้วยภาพ และ การเขียนคำบรรยายภาพ

ในแนวทางที่เก่ากว่านี้ ภาพถูกประเมินนอกบริบทของการสนทนา โดยไม่มีความเข้าใจในทางที่การสนทนาได้รับการปรับปรุงและพัฒนาโดยการตอบสนองด้วยภาพ และไม่มีสกีมาสำหรับการถอดรหัสการมีส่วนร่วมของภาพในบทสนทนา

ภาพเป็นส่วนสำคัญของการสนทนา

หลายแนวทางที่กล่าวมาแล้วได้รับการสนับสนุนจากฝ่ายวิจัย AI ของ Microsoft ซึ่งในปี 2017 ได้ ตรวจสอบ หัวข้อเกี่ยวกับการสนทนาที่มีหลายโหมดที่ เริ่มต้น ด้วยภาพ แทนที่จะใช้ภาพเป็นส่วนประกอบของการสนทนา

เพื่อแก้ไขปัญหาการขาดแคลนข้อมูลวิจัย นักวิจัยจากเกาหลีใต้ได้พัฒนาเซตข้อมูลที่มี 45,000 ตัวอย่างการสนทนาที่ใช้ภาพในลักษณะที่ไม่ซ้ำกัน โดยไม่เน้นไปที่ ภาพ ‘meme’ ที่เป็นไวรัส; ซึ่งแม้ว่าจะเป็นหัวข้อที่น่าสนใจในการวิจัยภาษา แต่ก็อาจเป็นความท้าทายที่น้อยกว่า เนื่องจากความหมายของภาพ ‘meme’ ที่เป็นไวรัส สามารถอนุมานได้ ได้ง่ายขึ้นผ่านการใช้งานในบริบทหลายพันครั้งบนแพลตฟอร์มโซเชียลมีเดีย

พัฒนาการใช้ภาพแทนข้อความ

เพื่อพัฒนาวิธีการสำหรับการแปลข้อความเป็นภาพที่สอดคล้องกัน นักวิจัยจากเกาหลีใต้ได้ฝึกอบรมระบบการเรียนรู้ของเครื่องจักรเพื่อทดแทนบางส่วนของการสนทนาด้วยข้อความเป็นภาพที่มีความหมาย

สถาปัตยกรรมของระบบเกาหลีสำหรับการสร้างเซตข้อมูลสำหรับการวิจัยการสนทนาที่มีหลายโหมด Source: https://arxiv.org/pdf/2107.08685.pdf

การประมวลผลข้อความล่วงหน้าเกี่ยวข้องกับการลบ คำหยุด ที่อาจขัดขวางการคาดการณ์เกี่ยวกับการตอบสนองต่อไปในบทสนทนา และการ tỉกัดข้อความที่มีคุณภาพต่ำผ่านตัวกรองความคล้ายคลึงกันในบริบท

เพื่อทดสอบความมีประโยชน์ของเซตข้อมูล นักวิจัยได้ตั้งค่าโมดูลเพื่อคาดการณ์การตอบสนองต่อไปในบทสนทนาโดยพิจารณาจากบริบทของการสนทนาและภาพที่เกี่ยวข้อง

ระบบการประเมินของมนุษย์ที่ใช้ในงานวิจัย

ใช้เซตข้อมูลภายนอกห้าเซตเป็นฐานสำหรับเซตข้อมูล 45k (ซึ่ง มีอยู่บน GitHub) สามเซตข้อมูลเป็นข้อความ: DailyDialog ซึ่งเป็นเซตข้อมูลการสนทนาที่มีหลายรอบที่ได้รับการบันทึกด้วยมือในปี 2017; และ EmpatheticDialogues และ PersonaChat ของ Facebook ทั้งสองเซตข้อมูลมาจากปี 2018 เซตข้อมูลภาพที่ใช้คือ MS-COCO และ Flicker30k

คู่ภาพและข้อความ – สกีมา JSON ของข้อความในเซตข้อมูลที่เกี่ยวข้องกับภาพ (ในตัวอย่างนี้) จากฐานข้อมูลภาพ COCO ของ Microsoft

การแทนที่ข้อความด้วยภาพสำหรับระบบได้รับการสนับสนุนจาก เครือข่ายการให้เหตุผลเชิงภาพและภาษา (VSRN) ที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งพัฒนาในปี 2019 ที่ Northeastern University ที่ Boston VSRN ถูกตั้งค่าให้ทำงานกับข้อความที่เลือกด้วยมือจากเซตข้อมูลข้อความที่มีส่วนร่วม

การสร้างความสอดคล้อง

ความสอดคล้องของเซตข้อมูลที่มาได้รับการสร้างขึ้นโดยการพัฒนา六ชุดของเซตข้อมูลการสนทนาแต่ละชุด ซึ่งเกี่ยวข้องกับกรณีในเซตข้อมูลภาพแต่ละชุด และได้รับการประเมินโดยมนุษย์หลายรอบ

การประเมินของมนุษย์ขึ้นอยู่กับสามเกณฑ์: ความสอดคล้องกับบริบทของการแลกเปลี่ยน; ความเกี่ยวข้องของภาพกับแนวคิดหลักที่ภาพพยายามแสดง; และระดับที่ภาพมีวัตถุหลักที่สำคัญจากประโยคเป้าหมาย

เมื่อพิจารณาจากเกณฑ์หลัง สามารถกล่าวได้ว่าสกีมาที่นักวิจัยตัดสินใจใช้นั้นได้ละเลยความเป็นไปได้ของความหมายเชิงสัญลักษณ์หรือเชิงอุปมาที่อาจถูกสอดเข้ามาในข้อความที่มีภาพ

อย่างไรก็ตาม นี่เป็นงานวิจัยที่มีความสำคัญ และมันจะต้องเริ่มต้นจากที่ไหนสักแห่ง ในขณะที่มีการใช้ความพยายามอย่างมากในภาคการประมวลผลภาษาที่เป็นธรรมชาติ (NLP) เพื่อ ทำแผนที่กรณีของการแสดงออกเชิงเสียดสี และตัวอย่างอื่นๆ ที่ไม่เห็นได้ชัดเจนของความสัมพันธ์ระหว่างภาพและข้อความ

การทดสอบ

เพื่อทดสอบเฟรมเวิร์กการสร้างเซตข้อมูล นักวิจัยได้ใช้โมเดลการค้นหาที่มีสามส่วนซึ่งพัฒนาจากการวิจัย Image-Chat ของ Facebook ในปี 2020 โมดูลประกอบด้วย Resnext-101 เป็นตัวเข้ารหัสภาพ; BERT ของ Google สำหรับตัวเข้ารหัสข้อความ; และโมดูลการผสมที่กำหนดเองสำหรับสิ่งเหล่านี้

ระบบได้รับผลลัพธ์ 50.35 และ 14.38 สำหรับการทำนายประโยคปัจจุบันและประโยคถัดไป โดยปรับปรุงผลลัพธ์ฐานสำหรับการทำงานทั้งสอง

ต่อมา นักวิจัยสองคนได้รับมอบหมายให้สร้างการสนทนาที่มีหลายโหมด 100 ครั้งโดยการใส่ภาพเข้าไปในบทสนทนาโดยใช้มือ และรันระบบกับการสนทนาที่มีหลายโหมด “ออร์แกนิก” เหล่านี้ ระบบสามารถคาดการณ์การตอบสนองในปัจจุบันและรอบถัดไปได้ด้วยความตระหนักรู้ในบริบทแม้สำหรับตัวอย่างที่ไม่ซ้ำกันเหล่านี้

ผลลัพธ์ของการทดสอบสำหรับระบบการสร้างเซตข้อมูลที่มีหลายโหมดของเกาหลี โดยแสดงให้เห็นถึงความสัมพันธ์ที่สูงและสม่ำเสมอระหว่างความคล้ายคลึงกันของข้อความและภาพกับคะแนนคำถามที่อิงจากมนุษย์บนเซตข้อมูลเดียวกัน