ปัญญาประดิษฐ์

โมเดลภาษา State-Of-The-Art ยังต้องดิ้นรนในการเข้าใจตรรกะเชิงเวลา

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

การทำนายสถานะในอนาคตเป็นภารกิจที่สำคัญในการวิจัยการมองเห็นของคอมพิวเตอร์ – ไม่ว่าจะเป็นในด้านหุ่นยนต์ ซึ่งต้องพิจารณาสถานการณ์ในโลกแห่งความเป็นจริง ดังนั้น ระบบการเรียนรู้ของเครื่องจึงต้องมีความเข้าใจที่เพียงพอเกี่ยวกับโลกแห่งความเป็นจริง ความเข้าใจเกี่ยวกับโลกแห่งความเป็นจริง

อย่างไรก็ตาม ในบางกรณี ความรู้ที่ดูเหมือนจะน่าประทับใจเกี่ยวกับจริยธรรมเชิงเวลาอาจเป็นการหลอกลวงได้: วิจัยใหม่จากสหรัฐอาหรับเอมิเรตส์พบว่า โมเดลภาษา Multimodal Large Language (MLLMs) ที่มีคุณภาพสูงสุด รวมถึงผู้นำในภาคส่วน GPT-4o และ Google Gemini ล้มเหลวเมื่อมันมาถึงการตีความว่าเวลาแสดงอยู่ในรูปภาพอย่างไร

ตัวอย่างคู่ภาพตามลำดับ (ดูรูปด้านล่าง) ซึ่งจะไม่ใช่เรื่องที่ท้าทายสำหรับมนุษย์ แม้ว่าจะถูกวางในลำดับที่ผิดก็ตาม สามารถทำให้ MLLMs ที่มีความก้าวหน้าล้มเหลวเมื่อนำเสนอในบริบทหรือการกำหนดค่าที่ไม่คาดคิด (เช่น รูปภาพที่สองก่อน รูปภาพที่ต่อเนื่องกันเป็นรูปภาพเดียว รูปภาพหลายรูปที่อาจหรืออาจไม่แสดงลำดับเวลาอย่างถูกต้อง และอื่นๆ)

ตัวอย่างจากชุดข้อมูลที่รวบรวมสำหรับการศึกษานี้ ซึ่งแสดงเหตุการณ์ตามลำดับ The researchers have made this data available at https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

นักวิจัยได้สั่งให้โมเดลทำการทดสอบการให้เหตุผลเชิงเวลาเบื้องต้น เช่น การกำหนดลำดับเหตุการณ์หรือการประมาณช่องว่างเวลา และพบว่า MLLMs ทั้ง 7 ตัวที่ทดสอบมีประสิทธิภาพต่ำกว่าความแม่นยำของมนุษย์:

‘โดยรวมแล้ว [ผลลัพธ์] เผยให้เห็นว่า MLLMs ทั้งหมด รวมถึง GPT-4o – โมเดลที่มีความก้าวหน้ามากที่สุดในการประเมินของเรา – ต้องดิ้นรนในการทำความเข้าใจเกณฑ์วัดที่เสนอ แม้ว่า GPT-4o จะมีประสิทธิภาพที่ดีกว่าโมเดลอื่นๆ แต่ก็ล้มเหลวในการแสดงให้เห็นถึงการให้เหตุผลเชิงเวลาที่แม่นยำอย่างต่อเนื่องในหลายๆ การตั้งค่า

‘คะแนนความแม่นยำที่ต่อเนื่องกันอย่างต่อเนื่องมีค่าต่ำสำหรับโมเดลทั้งหมด ซึ่งบ่งบอกถึงข้อจำกัดที่สำคัญในการทำความเข้าใจและตีความลำดับเหตุการณ์เชิงเวลาจากข้อมูลภาพเข้าไปสู่การให้เหตุผล These deficiencies are evident even when models are provided with multiimage inputs or optimized prompts, suggesting that current architectures and training methodologies are insufficient for robust temporal order understanding.’

ระบบการเรียนรู้ของเครื่องได้รับการออกแบบมาเพื่อปรับให้เหมาะสมที่สุดสำหรับผลลัพธ์ที่แม่นยำที่สุด แต่ยังรวมถึงผลลัพธ์ที่มีประสิทธิภาพและเป็นที่น่าพอใจของคนด้วย* เนื่องจากพวกมันไม่เปิดเผยการให้เหตุผลอย่างชัดเจน จึงอาจเป็นเรื่องที่ ยากที่จะบอก เมื่อพวกมัน โกงหรือใช้ ‘ทางลัด’

ในกรณีดังกล่าว MLLM อาจไปถึง คำตอบที่ถูกต้อง โดย วิธีที่ไม่ถูกต้อง ความจริงที่ว่าคำตอบดังกล่าวสามารถถูกต้องได้ อาจทำให้เกิดความมั่นใจที่ผิดๆ ในโมเดล ซึ่งอาจสร้างผลลัพธ์ที่ไม่ถูกต้องโดยวิธีเดียวกันในภารกิจที่นำเสนอให้กับมันในภายหลัง

สิ่งที่เลวร้ายยิ่งขึ้น คือ การหลอกลวงนี้สามารถฝังลึกลงไปในห่วงโซ่ของการพัฒนาได้ หากมนุษย์ประทับใจและให้คำติชมเชิงบวกในการทดสอบและเซสชันการบันทึกข้อมูล ซึ่งอาจมีส่วนช่วยในการกำหนดทิศทางที่ข้อมูลและ/หรือโมเดลอาจจะไป

ในกรณีนี้ แสดงว่า MLLMs ‘หลอกลวง’ ความเข้าใจที่แท้จริงเกี่ยวกับเหตุการณ์เชิงเวลาและปรากฏการณ์ โดยการสังเกตและยึดมั่นในตัวบ่งชี้รอง (เช่น ตัวบ่งชี้เวลา ในข้อมูลวิดีโอ ลำดับของภาพในลэйเอาต์ หรือแม้แต่ – โอกาส – ชื่อไฟล์ที่มีหมายเลขลำดับ)

มันบ่งบอกอีกว่า MLLMs ในปัจจุบันล้มเหลวในการตอบสนองความต้องการใดๆ ของการ ทั่วไป ของแนวคิดเกี่ยวกับปรากฏการณ์เชิงเวลา – อย่างน้อยก็ในระดับที่มนุษย์สามารถทำได้

วิจัยใหม่ ใหม่ มีชื่อเรื่องว่า Can Multimodal MLLMs do Visual Temporal Understanding and Reasoning? คำตอบคือ ไม่! และมาจากนักวิจัย 3 คนจาก Mohamed bin Zayed University of Artificial Intelligence และ Alibaba International Digital Commerce

ข้อมูลและการทดสอบ

นักวิจัยระบุว่าเกณฑ์วัดและศึกษาก่อนหน้านี้ เช่น MMMU และ TemporalBench มุ่งเน้นไปที่การนำเข้าภาพเดียว หรือกำหนดคำถามสำหรับ MLLMs ที่อาจจะง่ายเกินไปที่จะตอบ และอาจไม่ทำให้เกิดความต้องการที่จะแสดงพฤติกรรม ‘ทางลัด’

ดังนั้น นักวิจัยจึงนำเสนอแนวทางที่อัปเดต 2 วิธี: การทำความเข้าใจลำดับเวลา (TOU) และ การประมาณการช่องว่างเวลา (TLE) วิธีการ TOU ทดสอบความสามารถของโมเดลในการกำหนดลำดับเหตุการณ์ที่ถูกต้องจากคู่เฟรมวิดีโอ; วิธีการ TLE ประเมินความสามารถของ MLLM ในการประมาณช่องว่างเวลาระหว่างสองภาพ ซึ่งรวมถึงช่วงเวลาจากวินาทีถึงปี

จากวิจัยนี้ สองภารกิจหลักของ TemporalVQA benchmark: ใน Temporal Order Understanding โมเดลจะตัดสินว่าภาพใดแสดงเหตุการณ์ที่เกิดขึ้นก่อน; ใน Time-lapse Estimation โมเดลจะประมาณช่องว่างเวลาระหว่างสองภาพ โดยเลือกจากตัวเลือกที่รวมถึงวินาที นาที ชั่วโมง วัน หรือปี These tasks aim to test how well the MLLMs can reason about the timing and sequence of visual events. Source: https://arxiv.org/pdf/2501.10674

นักวิจัยได้รวบรวมคู่ภาพ 360 คู่สำหรับเกณฑ์วัด TOU โดยใช้วิดีโอที่เปิดเผยจาก Pixabay และ Pexels เพื่อให้สามารถเผยแพร่ชุดข้อมูล ผ่าน GUI

วิดีโอนี้ครอบคลุมหัวข้อต่างๆ ตั้งแต่ผู้คนในกิจกรรมประจำวันไปจนถึงเนื้อหาที่ไม่ใช่มนุษย์ เช่น สัตว์และพืช จากนั้นเลือกเฟรมคู่เพื่อแสดงลำดับเหตุการณ์ที่มีความแปรผันเพียงพอเพื่อให้เฟรมเริ่มต้น ‘ชัดเจน’

การคัดเลือกของมนุษย์ถูกใช้เพื่อให้แน่ใจว่าเฟรมสามารถเรียงลำดับได้อย่างแน่นอน ตัวอย่างเช่น หนึ่งในคู่ที่รวบรวมมาแสดงถ้วยชาที่เต็มไปครึ่งหนึ่งในช่องหนึ่ง และถ้วยชาที่เต็มไปด้วยชาในเฟรมถัดไป ทำให้ตรรกะของลำดับง่ายต่อการระบุ

ตรรกะเชิงเวลาของภาพสองภาพนี้ไม่สามารถหลีกเลี่ยงได้ เนื่องจากชาไม่สามารถดูดกลับเข้าไปในจุกชา

ด้วยวิธีนี้ จึงได้คู่ภาพ 360 คู่

สำหรับวิธีการ TLE ภาพที่ไม่มีลิขสิทธิ์ถูกเลือกจาก Google และ Flickr เช่นเดียวกับเฟรมที่เลือกจากวิดีโอที่ไม่มีลิขสิทธิ์ใน YouTube เนื้อหาของวิดีโอนี้มีฉากหรือวัตถุที่มีช่วงการเปลี่ยนแปลงตั้งแต่วินาทีถึงวันถึงฤดูกาล – ตัวอย่างเช่น ผลไม้ที่สุกหรือการเปลี่ยนแปลงของฤดูกาลในภูมิประเทศ

ดังนั้น จึงรวบรวมคู่ภาพ 125 คู่สำหรับวิธีการ TLE

ไม่ใช่ทั้งหมด MLLMs ที่ทดสอบสามารถประมวลผลภาพหลายภาพได้ ดังนั้นการทดสอบจึงแตกต่างกันเพื่อให้เหมาะสมกับความสามารถของแต่ละโมเดล

หลายเวอร์ชันของชุดข้อมูลที่รวบรวมมาถูกสร้างขึ้น โดยที่บางคู่ถูกต่อกันในแนวตั้ง และบางคู่ถูกต่อกันในแนวนอน การเปลี่ยนแปลงอื่นๆ สลับลำดับเวลาเชิงจริงและลำดับที่ถูกต้องของคู่

สองประเภทของคำสั่งถูกพัฒนา คำสั่งแรกติดตามเทมเพลต:

เหตุการณ์ในภาพ (ซ้าย / บน / แรก) เกิดขึ้นก่อนเหตุการณ์ในภาพ (ขวา / ล่าง / ที่สอง) หรือไม่? ระบุว่าเป็นจริงหรือเท็จพร้อมเหตุผล

คำสั่งที่สองติดตามสเคมานี้:

ระหว่างสองภาพนี้ ภาพใดแสดงเหตุการณ์ที่เกิดขึ้นก่อน? ระบุ (ซ้ายหรือขวา / บนหรือล่าง / แรกหรือที่สอง) พร้อมเหตุผล

สำหรับ TLE คำถามเป็นแบบหลายตัวเลือก โดยขอให้โมเดลประเมินช่องว่างเวลาระหว่างสองภาพที่นำเสนอ โดยมี วินาที, ชั่วโมง, นาที, วัน, เดือน และ ปี เป็นตัวเลือกในการวัดเวลา ในการกำหนดค่านี้ ภาพที่ใหม่กว่าจะถูกนำเสนอทางด้านขวา

คำสั่งที่ใช้ที่นี่คือ:

ในภาพที่กำหนด ประมาณช่องว่างเวลาระหว่างภาพแรก (ซ้าย) และภาพที่สอง (ขวา)

เลือกหนึ่งในตัวเลือกต่อไปนี้:

1. น้อยกว่า 15 วินาที B. ระหว่าง 2 นาทีถึง 15 นาที C. ระหว่าง 1 ชั่วโมงถึง 12 ชั่วโมง D. ระหว่าง 2 วันถึง 30 วัน E. ระหว่าง 4 เดือนถึง 12 เดือน F. มากกว่า 3 ปี

MLLMs ที่ทดสอบคือ ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; และ LLaVA-CoT

การทำความเข้าใจลำดับเวลา: ผลลัพธ์

ผลลัพธ์ของการทำความเข้าใจลำดับเวลาในโมเดลต่างๆ และการวางภาพต่างๆ โดยแสดงความแม่นยำและความต่อเนื่องในหลายๆ การตั้งค่าและคำสั่ง

เกี่ยวกับผลลัพธ์ที่แสดงด้านบน นักวิจัยพบว่า MLLMs ทั้งหมดที่ทดสอบ รวมถึง GPT-4o (ซึ่งแสดงผลลัพธ์ที่ดีที่สุดโดยรวม) ต้องดิ้นรนอย่างมากในการทำความเข้าใจเกณฑ์วัด TemporalVQA – และแม้แต่ GPT-4o ก็ล้มเหลวในการแสดงให้เห็นถึงการให้เหตุผลเชิงเวลาที่แม่นยำอย่างต่อเนื่องในหลายๆ การตั้งค่า

นักวิจัยยืนยันว่าความแม่นยำที่ต่ำและสม่ำเสมอตลอดใน MLLMs สะท้อนถึงข้อจำกัดที่สำคัญในการทำความเข้าใจและตีความลำดับเหตุการณ์เชิงเวลาจากข้อมูลภาพเข้าไปสู่การให้เหตุผล These challenges persist even with the use of multi-image inputs and optimized prompts, pointing to fundamental limitations in current model architectures and training methods.

การทดสอบแสดงให้เห็นถึงการเปลี่ยนแปลงที่สำคัญในประสิทธิภาพข้ามกลยุทธ์การสั่งงาน แม้ว่า GPT-4o จะได้รับการปรับปรุงด้วยคำสั่งที่ได้รับการปรับให้เหมาะสม (ถึง 4% ในการวางภาพเดียวและ 65.3% ในการวางภาพหลายภาพ) แต่ประสิทธิภาพยังคงต่ำกว่าระดับที่ยอมรับได้

โมเดล เช่น LLaVA-NeXT และ Qwen-VL มีความไวต่อการเปลี่ยนแปลงมากกว่า โดยประสิทธิภาพลดลงเมื่อใช้คำสั่งที่แตกต่างกัน ซึ่งบ่งบอกว่าการปรับคำสั่งเพียงอย่างเดียวไม่สามารถเอาชนะข้อจำกัดพื้นฐานของ MLLMs ในด้านการให้เหตุผลเชิงเวลา

การทดสอบยังชี้ให้เห็นว่าการวางภาพ (เช่น แนวนอนเทียบกับแนวตั้ง) มีผลกระทบอย่างมากต่อประสิทธิภาพของโมเดล GPT-4o ปรับปรุงความสม่ำเสมอด้วยการวางแนวตั้ง โดยเพิ่มขึ้นจาก 39.2% ถึง 52.8%; อย่างไรก็ตาม โมเดลอื่นๆ รวมถึง LLaVA-NeXT และ Qwen-VL แสดงถึงความลำเอียงทางทิศทางที่แข็งแกร่ง โดยมีประสิทธิภาพสูงในหนึ่งแนวทาง แต่ล้มเหลวในอีกแนวทางหนึ่ง

วิจัยนี้บ่งบอกว่าความไม่สม่ำเสมอนี้ชี้ให้เห็นว่า MLLMs พึ่งพาคำแนะนำเชิงพื้นที่มากกว่าการให้เหตุผลเชิงเวลาที่แท้จริง โดยไม่ได้วิเคราะห์จริงๆ ลำดับของเหตุการณ์หรือทำความเข้าใจการเปลี่ยนแปลงตามเวลา แต่ดูเหมือนว่าพวกมันจะพึ่งพารูปแบบหรือคุณลักษณะภาพที่เกี่ยวข้องกับการวางภาพ เช่น ตำแหน่งหรือการจัดตำแหน่ง เพื่อตัดสินใจ

การทดสอบเชิงคุณภาพเน้นย้ำการคาดการณ์ของ GPT-4o เมื่อเผชิญกับการวางภาพที่แตกต่างกัน ในการวางภาพครั้งแรก ภาพคู่ถูกนำเสนอในลำดับที่ถูกต้อง ในขณะที่ในลำดับที่สอง ลำดับถูกกลับกัน การจำแนกประเภทที่ถูกต้องจะถูกทำเครื่องหมายเป็นสีเขียว การจำแนกประเภทที่ไม่ถูกต้องจะถูกทำเครื่องหมายเป็นสีแดง การให้เหตุผลที่หลอกลวงจะถูกทำเครื่องหมายเป็นสีส้ม และการให้เหตุผลที่ไม่สมเหตุสมผลหรือ ‘ไม่ถูกต้อง’ จะถูกทำเครื่องหมายเป็นสีน้ำตาล โดยแสดงให้เห็นถึงความไม่สม่ำเสมอของโมเดลในหลายๆ การตั้งค่าของการนำเข้า

การทดสอบการเปรียบเทียบระหว่างการนำเข้าภาพเดียวและหลายภาพแสดงให้เห็นถึงการปรับปรุงที่จำกัด โดยรวม GPT-4o มีประสิทธิภาพที่ดีขึ้นเล็กน้อยในการนำเข้าหลายภาพ โดยเพิ่มขึ้นจาก 31.0% ถึง 43.6% (ด้วย P1) และ 46.0% ถึง 65.3% (ด้วย P2)

โมเดลอื่นๆ เช่น InternVL แสดงถึงความแม่นยำที่มั่นคง แต่ต่ำ นอกจากนี้ Qwen-VL ยังเห็นการปรับปรุงที่ไม่สำคัญ นักวิจัยสรุปว่าผลลัพธ์เหล่านี้บ่งบอกว่าบริบทภาพเพิ่มเติมไม่ได้ปรับปรุงความสามารถในการให้เหตุผลเชิงเวลาที่สำคัญ เนื่องจากโมเดลต้องดิ้นรนในการรวมข้อมูลเชิงเวลาอย่างมีประสิทธิภาพ

การศึกษามนุษย์

ในการศึกษามนุษย์ มีการสำรวจ 3 ครั้งเพื่อประเมินว่า MLLM ที่มีประสิทธิภาพสูงสุดทำได้ดีกว่ามนุษย์แค่ไหน

มนุษย์บรรลุความแม่นยำ 90.3% ซึ่งเหนือกว่า GPT-4o ที่ 65.3% ถึง 25% ชุดข้อมูลนี้มีความน่าเชื่อถือ โดยมีข้อผิดพลาดของมนุษย์ขั้นต่ำและความเห็นพ้องกันอย่างต่อเนื่องเกี่ยวกับคำตอบที่ถูกต้อง

ผลลัพธ์จากการศึกษามนุษย์สำหรับการทดสอบรอบแรก

การประมาณการช่องว่างเวลา: ผลลัพธ์

ผลลัพธ์สำหรับ TLE: การประมาณการช่องว่างเวลาประเมินความแม่นยำของโมเดลในการระบุช่วงเวลาระหว่างคู่ภาพ โดยครอบคลุมตั้งแต่วินาทีถึงปี

ในการทดสอบเหล่านี้ MLLMs มีประสิทธิภาพเพียงพอในการประมาณการช่องว่างเวลา: GPT-4o บรรลุความแม่นยำ 70% แต่โมเดลอื่นๆ มีประสิทธิภาพที่ต่ำกว่าอย่างมาก (ดูตารางด้านบน) และประสิทธิภาพยังแตกต่างกันอย่างมากในหลายๆ ระดับของช่วงเวลา

นักวิจัยให้ความเห็นว่า:

‘ภารกิจการประมาณการช่องว่างเวลาประเมินความสามารถของ MLLMs ในการอนุมานช่วงเวลาระหว่างคู่ภาพ [ทั้งหมด] MLLMs รวมถึงผู้นำอย่าง GPT-4o และ Gemini1.5-Pro ต้องดิ้นรนในการทำภารกิจนี้ โดยบรรลุความแม่นยำเพียง 60-70% GPT-4o แสดงให้เห็นถึงประสิทธิภาพที่ไม่สม่ำเสมอ โดยมีประสิทธิภาพที่ดีในระดับวินาทีและปี แต่ทำได้ไม่ดีในระดับชั่วโมง

ในทำนองเดียวกัน LLaVA-CoT แสดงให้เห็นถึงประสิทธิภาพที่ดีเยี่ยมในระดับวินาทีและวัน แต่แสดงให้เห็นถึงประสิทธิภาพที่ไม่ดีในระดับช่วงเวลาอื่นๆ’

การศึกษามนุษย์

ในการศึกษามนุษย์สำหรับ TLE ประสิทธิภาพเฉลี่ยของมนุษย์ดีขึ้นมากกว่า GPT-4o (โมเดลที่มีประสิทธิภาพสูงสุดในหมวดหมู่นี้ด้วย) ถึง 12.3%

นักวิจัยชี้ให้เห็นว่าความท้าทายบางอย่างมีความต้องการสูง และในกรณีหนึ่ง ผู้เข้าร่วมทั้งหมดตอบผิดพร้อมกับ AI ทั้งหมด

นักวิจัยสรุปว่า GPT-4o แสดงให้เห็นถึงความสามารถในการให้เหตุผลที่ ‘มีความแข็งแกร่งในระดับหนึ่ง’ โดยไม่คำนึงถึงลำดับของภาพที่นำเสนอ

สรุป

หาก MLLMs ในที่สุดก็สามารถรวบรวมและดูดซับ ‘ทางลัด’ เพียงพอเพื่อปกปิดความท้าทายที่ยากที่สุดของประเภทที่นำเสนอโดยนักวิจัยในเรื่องนี้ ไม่ว่าจะเป็นทางใดก็ตาม ที่เราจะได้รับว่าพวกมันสามารถพัฒนาความสามารถในการทั่วไปเชิงมนุษย์ในโดเมนนี้ได้หรือไม่ อาจกลายเป็นเรื่องที่ไม่เกี่ยวข้อง

ไม่ชัดเจนว่าเราจะได้รับความรู้และความสามารถในการให้เหตุผลเชิงเวลาของเราเองผ่านวิธีใด – เรา ‘โกง’ จนกว่าประสบการณ์ที่เรียนรู้จะแสดงรูปแบบที่ทำงานเหมือน ‘สัญชาตญาณ’ ในเรื่องนี้หรือไม่?

* จากมุมมองที่ว่าโมเดลถูกปรับให้เหมาะสมด้วยฟังก์ชันการสูญเสียที่ได้รับการปรับปรุงจากข้อมูลที่ได้รับจากมนุษย์ และได้รับการปรับปรุงโดยการทดสอบและกระบวนการคัดเลือกของมนุษย์

เผยแพร่ครั้งแรกวันจันทร์ 27 มกราคม 2025