ปัญญาประดิษฐ์
การสอน AI ให้เข้าใจและใช้ภาพในบทสนทนา

นักวิจัยจากประเทศเกาหลีใต้ได้พัฒนาเซตข้อมูลที่ออกแบบมาเพื่อช่วยให้การวิจัยเกี่ยวกับการทำความเข้าใจของ AI ในวิธีที่มนุษย์ใช้ภาพในบทสนทนา และเพื่อช่วยให้โมเดลภาษาที่เป็นธรรมชาติสามารถเข้าร่วมในความก้าวหน้าล่าสุดนี้ในด้านการสื่อสารของมนุษย์
บทความ จาก KAIST ที่ Daedeok Innopolis ระบุว่าการวิจัยเกี่ยวกับระบบสนทนาที่มีหลายโหมดในช่วงสิบปีที่ผ่านมาได้รับอิทธิพลจากเซตข้อมูลและวิธีการที่มุ่งเน้นไปที่สาขาที่อยู่นอกหัวข้อนี้ เช่น การถามคำถามด้วยภาพ และ การเขียนคำบรรยายภาพ
ในแนวทางที่เก่ากว่านี้ ภาพถูกประเมินนอกบริบทของการสนทนา โดยไม่มีความเข้าใจในทางที่การสนทนาได้รับการปรับปรุงและพัฒนาโดยการตอบสนองด้วยภาพ และไม่มีสกีมาสำหรับการถอดรหัสการมีส่วนร่วมของภาพในบทสนทนา
ภาพเป็นส่วนสำคัญของการสนทนา
หลายแนวทางที่กล่าวมาแล้วได้รับการสนับสนุนจากฝ่ายวิจัย AI ของ Microsoft ซึ่งในปี 2017 ได้ ตรวจสอบ หัวข้อเกี่ยวกับการสนทนาที่มีหลายโหมดที่ เริ่มต้น ด้วยภาพ แทนที่จะใช้ภาพเป็นส่วนประกอบของการสนทนา
เพื่อแก้ไขปัญหาการขาดแคลนข้อมูลวิจัย นักวิจัยจากเกาหลีใต้ได้พัฒนาเซตข้อมูลที่มี 45,000 ตัวอย่างการสนทนาที่ใช้ภาพในลักษณะที่ไม่ซ้ำกัน โดยไม่เน้นไปที่ ภาพ ‘meme’ ที่เป็นไวรัส; ซึ่งแม้ว่าจะเป็นหัวข้อที่น่าสนใจในการวิจัยภาษา แต่ก็อาจเป็นความท้าทายที่น้อยกว่า เนื่องจากความหมายของภาพ ‘meme’ ที่เป็นไวรัส สามารถอนุมานได้ ได้ง่ายขึ้นผ่านการใช้งานในบริบทหลายพันครั้งบนแพลตฟอร์มโซเชียลมีเดีย
พัฒนาการใช้ภาพแทนข้อความ
เพื่อพัฒนาวิธีการสำหรับการแปลข้อความเป็นภาพที่สอดคล้องกัน นักวิจัยจากเกาหลีใต้ได้ฝึกอบรมระบบการเรียนรู้ของเครื่องจักรเพื่อทดแทนบางส่วนของการสนทนาด้วยข้อความเป็นภาพที่มีความหมาย

สถาปัตยกรรมของระบบเกาหลีสำหรับการสร้างเซตข้อมูลสำหรับการวิจัยการสนทนาที่มีหลายโหมด Source: https://arxiv.org/pdf/2107.08685.pdf
การประมวลผลข้อความล่วงหน้าเกี่ยวข้องกับการลบ คำหยุด ที่อาจขัดขวางการคาดการณ์เกี่ยวกับการตอบสนองต่อไปในบทสนทนา และการ tỉกัดข้อความที่มีคุณภาพต่ำผ่านตัวกรองความคล้ายคลึงกันในบริบท
เพื่อทดสอบความมีประโยชน์ของเซตข้อมูล นักวิจัยได้ตั้งค่าโมดูลเพื่อคาดการณ์การตอบสนองต่อไปในบทสนทนาโดยพิจารณาจากบริบทของการสนทนาและภาพที่เกี่ยวข้อง

ระบบการประเมินของมนุษย์ที่ใช้ในงานวิจัย
ใช้เซตข้อมูลภายนอกห้าเซตเป็นฐานสำหรับเซตข้อมูล 45k (ซึ่ง มีอยู่บน GitHub) สามเซตข้อมูลเป็นข้อความ: DailyDialog ซึ่งเป็นเซตข้อมูลการสนทนาที่มีหลายรอบที่ได้รับการบันทึกด้วยมือในปี 2017; และ EmpatheticDialogues และ PersonaChat ของ Facebook ทั้งสองเซตข้อมูลมาจากปี 2018 เซตข้อมูลภาพที่ใช้คือ MS-COCO และ Flicker30k

คู่ภาพและข้อความ – สกีมา JSON ของข้อความในเซตข้อมูลที่เกี่ยวข้องกับภาพ (ในตัวอย่างนี้) จากฐานข้อมูลภาพ COCO ของ Microsoft
การแทนที่ข้อความด้วยภาพสำหรับระบบได้รับการสนับสนุนจาก เครือข่ายการให้เหตุผลเชิงภาพและภาษา (VSRN) ที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งพัฒนาในปี 2019 ที่ Northeastern University ที่ Boston VSRN ถูกตั้งค่าให้ทำงานกับข้อความที่เลือกด้วยมือจากเซตข้อมูลข้อความที่มีส่วนร่วม
การสร้างความสอดคล้อง
ความสอดคล้องของเซตข้อมูลที่มาได้รับการสร้างขึ้นโดยการพัฒนา六ชุดของเซตข้อมูลการสนทนาแต่ละชุด ซึ่งเกี่ยวข้องกับกรณีในเซตข้อมูลภาพแต่ละชุด และได้รับการประเมินโดยมนุษย์หลายรอบ
การประเมินของมนุษย์ขึ้นอยู่กับสามเกณฑ์: ความสอดคล้องกับบริบทของการแลกเปลี่ยน; ความเกี่ยวข้องของภาพกับแนวคิดหลักที่ภาพพยายามแสดง; และระดับที่ภาพมีวัตถุหลักที่สำคัญจากประโยคเป้าหมาย
เมื่อพิจารณาจากเกณฑ์หลัง สามารถกล่าวได้ว่าสกีมาที่นักวิจัยตัดสินใจใช้นั้นได้ละเลยความเป็นไปได้ของความหมายเชิงสัญลักษณ์หรือเชิงอุปมาที่อาจถูกสอดเข้ามาในข้อความที่มีภาพ
อย่างไรก็ตาม นี่เป็นงานวิจัยที่มีความสำคัญ และมันจะต้องเริ่มต้นจากที่ไหนสักแห่ง ในขณะที่มีการใช้ความพยายามอย่างมากในภาคการประมวลผลภาษาที่เป็นธรรมชาติ (NLP) เพื่อ ทำแผนที่กรณีของการแสดงออกเชิงเสียดสี และตัวอย่างอื่นๆ ที่ไม่เห็นได้ชัดเจนของความสัมพันธ์ระหว่างภาพและข้อความ
การทดสอบ
เพื่อทดสอบเฟรมเวิร์กการสร้างเซตข้อมูล นักวิจัยได้ใช้โมเดลการค้นหาที่มีสามส่วนซึ่งพัฒนาจากการวิจัย Image-Chat ของ Facebook ในปี 2020 โมดูลประกอบด้วย Resnext-101 เป็นตัวเข้ารหัสภาพ; BERT ของ Google สำหรับตัวเข้ารหัสข้อความ; และโมดูลการผสมที่กำหนดเองสำหรับสิ่งเหล่านี้
ระบบได้รับผลลัพธ์ 50.35 และ 14.38 สำหรับการทำนายประโยคปัจจุบันและประโยคถัดไป โดยปรับปรุงผลลัพธ์ฐานสำหรับการทำงานทั้งสอง
ต่อมา นักวิจัยสองคนได้รับมอบหมายให้สร้างการสนทนาที่มีหลายโหมด 100 ครั้งโดยการใส่ภาพเข้าไปในบทสนทนาโดยใช้มือ และรันระบบกับการสนทนาที่มีหลายโหมด “ออร์แกนิก” เหล่านี้ ระบบสามารถคาดการณ์การตอบสนองในปัจจุบันและรอบถัดไปได้ด้วยความตระหนักรู้ในบริบทแม้สำหรับตัวอย่างที่ไม่ซ้ำกันเหล่านี้













