มุมมองของ Anderson

นำวิธีการเปรียบเทียบภาพมาใช้กับ AI

เผยแพร่ 16 ธันวาคม 2025

อัปเดต 17 พฤษภาคม 2026

Martin Anderson

AI-generated image: comparative cross-sections of a peach and the planet Earth. GPT-image-1, Firefly 3.

โมเดล AI ปัจจุบันล้มเหลวในการตระหนักถึงความคล้ายคลึงกันของภาพ “เชิงสัมพันธ์” เช่น ว่าชั้นของโลกคล้ายกับพีชหรือไม่ ซึ่งเป็นประเด็นสำคัญของวิธีการที่มนุษย์รับรู้ภาพ

แม้ว่าจะมีโมเดล การมองเห็นของคอมพิวเตอร์ ที่สามารถเปรียบเทียบภาพและค้นหาความคล้ายคลึงกันระหว่างภาพเหล่านั้นได้ แต่ระบบการเปรียบเทียบในปัจจุบันยังไม่มีความสามารถในการ จินตนาการ เลย ตัวอย่างเช่น ในเพลงคลาสสิกยุค 60 “Windmills of Your Mind” มีเนื้อร้องที่ว่า:

เหมือนกับเครื่องเล่นที่กำลังหมุนอยู่รอบๆ ดวงจันทร์
เหมือนกับนาฬิกาที่กำลังหมุนผ่านนาทีบนหน้าปัด
และโลกก็เหมือนกับลูกแอปเปิ้ลที่กำลังหมุนอยู่ในอวกาศอย่างเงียบๆ

การเปรียบเทียบประเภทนี้แสดงถึงโดเมนของการอ้างอิงเชิงอุปมาที่มีความหมายสำหรับมนุษย์มากกว่าการแสดงออกทางศิลปะ แต่เกี่ยวข้องกับวิธีการที่เราพัฒนาระบบการรับรู้ของเรา เมื่อเราสร้างโดเมน “วัตถุ” ของเรา เราจะพัฒนาความสามารถในการ รับรู้ความคล้ายคลึงกันทางภาพ เพื่อให้เราสามารถอนุมานความสัมพันธ์ระหว่างวัตถุและประเภทวัตถุที่ดูไม่เกี่ยวข้องกัน และ อนุมานระบบ (เช่น ระบบแรงโน้มถ่วง โมเมนตัม และการยึดเกาะผิว) ที่สามารถใช้กับโดเมนต่างๆ ในระดับต่างๆ ได้

ในทางนี้ เราสามารถอนุมานความสัมพันธ์ระหว่างวัตถุและประเภทวัตถุที่ดูไม่เกี่ยวข้องกัน และ รับรู้ความคล้ายคลึงกัน (เช่น การตัดขวางของพีชและดาวเคราะห์ หรือการวนซ้ำของ螺旋กาแฟและกิ่งดาวเคราะห์)

การมองเห็น

แม้แต่ระบบการเปรียบเทียบภาพรุ่นล่าสุด เช่น Learned Perceptual Image Patch Similarity (LPIPS) และ DINO ซึ่งได้รับข้อมูลจากมนุษย์ ก็ยังสามารถทำการเปรียบเทียบเฉพาะพื้นผิวเท่านั้น

ความสามารถในการ ค้นหาพื้นผิวที่ไม่มีอยู่จริง – เช่น pareidolia – ไม่ได้แสดงถึงกลไกความคล้ายคลึงกันทางภาพที่มนุษย์ใช้ แต่เกิดจากอัลกอริทึมการค้นหาพื้นผิวที่ใช้คุณลักษณะพื้นผิวต่ำ เช่น คุณลักษณะ ที่บางครั้งตรงกับวัตถุโดยการสุ่ม:

ตัวอย่างผลลัพธ์เท็จสำหรับการรับรู้ใบหน้าในเซต ‘Faces with Things’ แหล่งที่มา

เพื่อพิจารณาว่าเครื่องจักรสามารถพัฒนาความสามารถในการจินตนาการในการรับรู้ความคล้ายคลึงกันทางภาพได้หรือไม่ นักวิจัยในสหรัฐฯ ได้ทำการ ศึกษา เรื่อง ความคล้ายคลึงกันทางภาพเชิงสัมพันธ์ โดยสร้างและฝึกโมเดลใหม่เพื่อสร้างความสัมพันธ์เชิงสัมพันธ์ระหว่างวัตถุที่แตกต่างกัน:

โมเดล AI ส่วนใหญ่จดจำความคล้ายคลึงกันเฉพาะเมื่อภาพมีลักษณะพื้นผิวเหมือนกัน เช่น รูปทรงหรือสี ซึ่งเป็นเหตุผลที่พวกมันเชื่อมโยงเฉพาะกลุ่ม B (ด้านบน) กับอ้างอิงเท่านั้น ในทางกลับกัน มนุษย์เห็นกลุ่ม A เป็นภาพที่คล้ายคลึงกัน – ไม่ใช่เพราะภาพดูเหมือนกัน แต่เพราะพวกมันตามหลักการเชิงสัมพันธ์ที่เหมือนกัน เช่น การแสดงการเปลี่ยนแปลงตามเวลา. แหล่งที่มา

ระบบการแสดงภาพที่พัฒนาสำหรับเซตข้อมูลนี้ช่วยให้การแสดงภาพที่เป็นนามธรรมและไม่เหมือนใคร ซึ่งออกแบบมาเพื่อกระตุ้นให้ระบบ AI มุ่งเน้นไปที่คุณลักษณะพื้นฐานมากกว่ารายละเอียดเฉพาะ:

คำบรรยายที่คาดการณ์ไว้ที่มีส่วนช่วยในการวัด ‘relsim’ ของผู้เขียน

เซตข้อมูลที่สร้างขึ้นและรูปแบบการแสดงภาพที่ไม่เหมือนใครนี้เป็นหลักการของการวัดใหม่ที่ผู้เขียนเสนอ relsim ซึ่งผู้เขียนได้ ปรับให้เหมาะสม ในโมเดลภาษา-ภาพ (VLM):

การเปรียบเทียบระหว่างรูปแบบการแสดงภาพของเซตข้อมูลปกติ ซึ่งมุ่งเน้นไปที่ความคล้ายคลึงกันของลักษณะ และแนวทาง ‘relsim’ (แถวล่าง) ซึ่งเน้นไปที่ความคล้ายคลึงกันเชิงสัมพันธ์

แนวทางใหม่นี้ใช้แนวทางจากวิทยาศาสตร์认知 โดยเฉพาะทฤษฎี การสร้างแบบจำลองโครงสร้าง ของ Dedre Gentner (การศึกษาเรื่องอุปมาน) และคำจำกัดความของ ความคล้ายคลึงกันเชิงสัมพันธ์และความคล้ายคลึงกันของลักษณะ ของ Amos Tversky:

ตัวอย่างความคล้ายคลึงกันเชิงสัมพันธ์จากเว็บไซต์โครงการที่เกี่ยวข้อง. แหล่งที่มา

ผู้เขียนระบุว่า:

‘[มนุษย์]ประมวลผลความคล้ายคลึงกันของลักษณะในระดับความรู้สึก แต่ความคล้ายคลึงกันเชิงสัมพันธ์ต้องการการสร้างแบบจำลองเชิงแนวคิด ซึ่งมักได้รับการสนับสนุนจากภาษาหรือความรู้ก่อนหน้านี้ ซึ่งบ่งชี้ว่าการรับรู้ความคล้ายคลึงกันเชิงสัมพันธ์ขั้นแรกต้องอาศัยการทำความเข้าใจภาพ การดึงความรู้ และการสร้างแบบจำลองโครงสร้างพื้นฐาน’

เอกสารวิจัยใหม่ ชิ้นนี้ มีชื่อเรื่องว่า ความคล้ายคลึงกันทางภาพเชิงสัมพันธ์ และมี เว็บไซต์โครงการ (ดูวิดีโอที่ฝังไว้ที่ส่วนท้ายของบทความนี้)

วิธีการ

นักวิจัยใช้หนึ่งในเซตข้อมูลขนาดใหญ่ที่รู้จักกันดีที่สุดเป็นจุดเริ่มต้นสำหรับการรวบรวมของตนเอง – LAION-2B:

ข้อมูลอ้างอิงสำหรับรายการในคอลเลกชัน LAION-2B แหล่งที่มา

114,000 ภาพที่มีโครงสร้างเชิงสัมพันธ์ที่ยืดหยุ่นได้ถูกดึงออกมาจาก LAION-2B โดยการกรองภาพคุณภาพต่ำที่มีอยู่ในเซตข้อมูลที่มีการดูแลอย่างน้อย:

เพื่อสร้างกระบวนการสำหรับการเลือกนี้ ผู้เขียนใช้ Qwen2.5-VL-7B โดยใช้ 1,300 ตัวอย่างที่ได้รับการระบุชื่อและ 11,000 ตัวอย่างที่ไม่ได้รับการระบุชื่อจากมนุษย์:

ระบบ relsim ถูกฝึกในสามขั้นตอน: การกรองภาพจาก LAION-2B สำหรับเนื้อหาทางสัมพันธ์; การกำหนดคำบรรยายที่ไม่มีชื่อซึ่งจับลักษณะเชิงสัมพันธ์; และการเรียนรู้เพื่อจับคู่ภาพกับคำบรรยายเหล่านั้นโดยใช้การขาดความสอดคล้อง

เอกสารระบุว่า:

‘ผู้ทำการ.annotate ได้รับคำแนะนำ: “คุณเห็นรูปแบบเชิงสัมพันธ์ โลจิก หรือโครงสร้างใดๆ ในภาพนี้ที่สามารถใช้สำหรับการสร้างหรือเชื่อมโยงกับภาพอื่นได้หรือไม่?” โมเดลที่ปรับให้เหมาะสมบรรลุผลลัพธ์ 93% ที่สอดคล้องกับการตัดสินของมนุษย์ และเมื่อนำไปใช้กับ LAION-2B จะได้ N = 114k ภาพที่ระบุว่ามีความสัมพันธ์’

เพื่อสร้างป้ายกำกับทางสัมพันธ์ ผู้วิจัยกระตุ้นโมเดล Qwen ให้อธิบายลักษณะเชิงสัมพันธ์ที่ใช้ร่วมกันของชุดภาพโดยไม่ตั้งชื่อวัตถุเฉพาะ:

การสร้างแบบจำลองนี้ยากที่จะได้เมื่อโมเดลเห็นเพียงภาพเดียว แต่กลายเป็นไปได้เมื่อหลายตัวอย่างแสดงให้เห็นถึงรูปแบบพื้นฐาน:

คำบรรยายระดับกลุ่มที่ได้รับแทนที่คำศัพท์เฉพาะด้วยตัวแทน เช่น ‘{วัตถุ}’ หรือ ‘{ประเภทของการเคลื่อนไหว}’ ทำให้สามารถใช้กับภาพทั่วไปได้:

หลังจากการยืนยันของมนุษย์ แต่ละคำบรรยายจะถูกจับคู่กับภาพทั้งหมดในชุดของมัน มากกว่า 500 ชุดเหล่านี้ถูกใช้ในการฝึกโมเดล ซึ่งจากนั้นถูกนำไปใช้กับ 114,000 ภาพที่กรองแล้วเพื่อสร้างชุดใหญ่ของตัวอย่างที่มีคำบรรยายเชิงสัมพันธ์:

ข้อมูลและการทดสอบ

หลังจากการดึงคุณลักษณะเชิงสัมพันธ์ด้วย Qwen2.5-VL-7B โมเดลถูกปรับให้เหมาะสมบนข้อมูลโดยใช้ LoRA เป็นเวลา 15,000 ขั้นตอนผ่าน 8 A100 GPU* สำหรับด้านข้อความ คำบรรยายเชิงสัมพันธ์ถูกฝังโดยใช้ all-MiniLM-L6-v2 จาก ไลบรารี Sentence-Transformers:

เซตข้อมูลที่มี 114,000 ภาพที่มีคำบรรยายถูกแบ่งออกเป็น 100,000 สำหรับการฝึกอบรมและ 14,000 สำหรับการประเมิน เพื่อทดสอบระบบ การตั้งค่าการค้นหาถูกใช้: เมื่อให้ภาพค้นหา โมเดลจะต้องค้นหาภาพอื่นที่แสดงความคิดเชิงสัมพันธ์เดียวกันจากกลุ่ม 28,000 รายการ การค้นหากลุ่มรวมถึง 14,000 ภาพสำหรับการประเมินและ 14,000 ตัวอย่างเพิ่มเติมจาก LAION-2B โดยมี 1,000 ค้นหาที่เลือกแบบสุ่มจากชุดสำหรับการทดสอบ:

เพื่อประเมินคุณภาพการค้นหา GPT-4o ถูกใช้ในการให้คะแนนความคล้ายคลึงกันเชิงสัมพันธ์ระหว่างภาพค้นหาที่ได้รับแต่ละภาพตั้งแต่ 0 ถึง 10 การศึกษาที่แยกต่างหากก็ถูกดำเนินการเพื่อประเมินความชอบของผู้ใช้ (ด้านล่าง):

ผู้เข้าร่วมแต่ละคนถูกแสดงภาพค้นหาที่ไม่มีชื่อพร้อมกับสองตัวเลือก หนึ่งถูกค้นหาโดยวิธีการที่เสนอ และอีกวิธีหนึ่งโดยวิธีฐาน การถามผู้เข้าร่วมว่าภาพใดมีความคล้ายคลึงกันทางสัมพันธ์กับภาพค้นหามากกว่า หรือถ้าทั้งสองมีความคล้ายคลึงกันเท่ากัน สำหรับแต่ละวิธีฐาน 300 สามเท่าถูกสร้างขึ้นและให้คะแนนโดยผู้เข้าร่วมอย่างน้อยสามคน ซึ่งส่งผลให้มีการตอบกลับประมาณ 900 ครั้ง:

แนวทาง relsim ถูกเปรียบเทียบกับวิธีการเปรียบเทียบภาพต่อภาพที่มีอยู่หลายวิธี รวมถึง LPIPS และ DINO ที่กล่าวถึงก่อนหน้านี้ เช่นเดียวกับ dreamsim และ CLIP-I นอกเหนือจากวิธีการฐานที่คำนวณคะแนนความคล้ายคลึงกันโดยตรงระหว่างคู่ภาพ เช่น LPIPS, DINO, dreamsim และ CLIP-I ผู้เขียนยังทดสอบวิธีการที่ใช้คำบรรยายด้วย โดยที่ Qwen ถูกใช้เพื่อสร้างคำบรรยายที่ไม่มีชื่อหรือที่เป็นนามธรรมสำหรับแต่ละภาพ:

สองรูปแบบการค้นหาถูกประเมิน โดยใช้ CLIP-T สำหรับการค้นหาภาพจากข้อความ และ Qwen-T สำหรับการค้นหาแบบข้อความต่อข้อความ ทั้งสองวิธีฐานที่ใช้คำบรรยายใช้ Qwen ที่ฝึกมาแล้วแบบเดิม ไม่ใช่เวอร์ชันที่ปรับให้เหมาะสมสำหรับตรรกะเชิงสัมพันธ์ ซึ่งช่วยให้ผู้เขียนแยกผลกระทบของการฝึกแบบกลุ่ม เนื่องจากโมเดลที่ปรับให้เหมาะสมได้รับการเปิดเผยต่อชุดภาพ ไม่ใช่ตัวอย่างที่แยกจากกัน

มาตรการและความคล้ายคลึงกันเชิงสัมพันธ์

ผู้เขียนเริ่มต้นด้วยการทดสอบว่ามาตรการที่มีอยู่สามารถจับภาพความคล้ายคลึงกันเชิงสัมพันธ์ได้หรือไม่:

การเปรียบเทียบผลการค้นหาที่ตัดสินโดย GPT-4o โดยแสดงคะแนนความคล้ายคลึงกันเชิงสัมพันธ์เฉลี่ยสำหรับแต่ละวิธี มาตรการความคล้ายคลึงกันทั่วไป เช่น LPIPS, DINO และ CLIP-I มีคะแนนต่ำกว่า รวมถึงแม้จะปรับให้เหมาะสมแล้วก็ตาม วิธีฐานที่ใช้คำบรรยาย Qwen-T และ CLIP-T ก็มีประสิทธิภาพต่ำกว่าด้วย คะแนนสูงสุดได้รับจาก relsim (6.77, คอลัมน์แรกทางขวา) ซึ่งบ่งชี้ว่าการปรับให้เหมาะสมบนรูปแบบเชิงสัมพันธ์แบบกลุ่มปรับปรุงการทำงานร่วมกันของการประเมินของ GPT-4o

เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนระบุ**:

‘[LPIPS] ซึ่งมุ่งเน้นไปที่ความคล้ายคลึงกันเชิงสัมผัสเท่านั้น มีคะแนนต่ำสุด (4.56) [DINO] ทำได้ดีขึ้นเล็กน้อย (5.14) อาจเป็นเพราะได้รับการฝึกอบรมในลักษณะแบบไม่มีผู้ดูแลบนข้อมูลภาพ [CLIP-I] ให้ผลลัพธ์ที่แข็งแกร่งที่สุดในบรรดาวิธีฐาน (5.91) อาจเป็นเพราะบางครั้งมีการสรุปในคำบรรยายภาพ’

‘อย่างไรก็ตาม CLIP-I ยังคงทำงานต่ำกว่าวิธีการของเรา เนื่องจากการบรรลุคะแนนที่ดีกว่าอาจต้องใช้การสรุปเชิงสัมพันธ์ที่สูงกว่า เช่น ในคำบรรยายที่ไม่มีชื่อ’

ในระหว่างการศึกษาที่มีมนุษย์ ผู้เข้าร่วมชอบวิธีการ relsim มากกว่าวิธีฐานทั้งหมด:

คะแนนความคล้ายคลึงกันเชิงสัมพันธ์ที่กำหนดโดย GPT-4o สำหรับแต่ละวิธี มาตรการความคล้ายคลึงกันทั่วไป เช่น LPIPS, DINO และ CLIP-I มีคะแนนต่ำกว่า วิธีฐานที่ใช้คำบรรยาย Qwen-T และ CLIP-T ทำได้ดีขึ้นเล็กน้อย แต่แม้แต่การปรับให้เหมาะสมของ DINO และ CLIP ก็ไม่สามารถลดช่องว่างได้ คะแนนสูงสุด 6.77 ได้รับจากโมเดลที่เราเสนอ ซึ่งฝึกอบรมโดยใช้การดูแลแบบกลุ่ม

ผู้เขียนสังเกตเห็นว่า:

‘สิ่งนี้เป็นผลลัพธ์ที่น่าสนับสนุนอย่างมาก เนื่องจากแสดงให้เห็นว่าไม่เพียงแต่โมเดลของเรา relsim สามารถค้นหาได้สำเร็จเท่านั้น แต่ยังแสดงให้เห็นว่ามนุษย์สามารถรับรู้ความคล้ายคลึงกันเชิงสัมพันธ์ได้ – ไม่ใช่แค่ความคล้ายคลึงกันของลักษณะเท่านั้น!’

เพื่อสำรวจว่าความคล้ายคลึงกันเชิงสัมพันธ์และความคล้ายคลึงกันของลักษณะอาจเสริมซึ่งกันและกันอย่างไร ผู้วิจัยใช้วิธีการแสดงภาพแบบผสม:

ภาพค้นหาที่กำหนด ( ‘สุนัขถือกล้อง’ ) ถูกเปรียบเทียบกับ 3,000 ภาพสุ่ม และความคล้ายคลึงกันถูกคำนวณโดยใช้ทั้งแบบจำลองเชิงสัมพันธ์และแบบจำลองเชิงลักษณะ:

การแสดงภาพร่วมของพื้นที่ความคล้ายคลึงกันทางภาพโดยใช้軸เชิงสัมพันธ์และลักษณะ

ผลลัพธ์แสดงให้เห็นกลุ่มที่สอดคล้องกับประเภทความคล้ายคลึงกันที่แตกต่างกัน: บางภาพมีลักษณะที่คล้ายคลึงกันในด้านตรรกะและรูปลักษณ์ เช่น สุนัขอื่นๆ ที่ใช้เครื่องมือ; บางส่วนมีความสัมพันธ์เชิงตรรกะแต่ไม่เหมือนกัน เช่น สัตว์ชนิดอื่นทำการกระทำที่เกี่ยวข้องกับกล้อง; ส่วนที่เหลือไม่แสดงความคล้ายคลึงกันใดๆ

การวิเคราะห์นี้ชี้ให้เห็นว่าความคล้ายคลึงกันทั้งสองประเภทมีบทบาทที่แตกต่างกันและให้โครงสร้างที่มีรายละเอียดมากขึ้นเมื่อรวมกัน

กรณีการใช้งาน

บทความยังสำรวจกรณีการใช้งานที่เป็นไปได้บางกรณีสำหรับความคล้ายคลึงกันเชิงสัมพันธ์ รวมถึง การค้นหารูปภาพเชิงสัมพันธ์ ซึ่งช่วยให้ค้นหารูปภาพได้มากขึ้นตามวิธีการสร้างสรรค์ของมนุษย์:

การค้นหารูปภาพเชิงสัมพันธ์จะส่งคืนภาพที่มีโครงสร้างเชิงแนวคิดที่ลึกซึ้งกว่าซึ่งเหมือนกับภาพค้นหา ไม่ใช่เพียงลักษณะพื้นผิวเท่านั้น ตัวอย่างเช่น อาหารที่ตกแต่งให้เหมือนใบหน้าจะส่งคืนมื้ออาหารอื่นๆ ที่มีลักษณะเหมือนมนุษย์; วัตถุที่ถูกตัดเป็นชิ้นๆ จะส่งคืนรูปแบบที่ถูกตัดอื่นๆ; และฉากที่มีการโต้ตอบระหว่างผู้ใหญ่และลูกจะส่งคืนภาพที่มีบทบาทเชิงสัมพันธ์ที่คล้ายกัน แม้ว่าชนิดและองค์ประกอบจะแตกต่างกันก็ตาม

ความเป็นไปได้อีกอย่างหนึ่งคือ การสร้างภาพเชิงอุปมาน ซึ่งจะช่วยให้สามารถสังเคราะห์คำถามที่ใช้โครงสร้างเชิงสัมพันธ์แทนคำอธิบายโดยตรง ในการเปรียบเทียบผลลัพธ์ที่ได้รับจากโมเดลการสร้างภาพข้อความล่าสุด เราสามารถเห็นว่าผลลัพธ์ของแนวทางนี้มีแนวโน้มที่จะหลากหลายมากขึ้น:

เมื่อให้ภาพและคำถามเชิงสัมพันธ์ โมเดลถูกขอให้สร้างภาพใหม่ที่แสดงแนวคิดพื้นฐานเดียวกัน โมเดลที่เป็นเจ้าของสร้างอุปมานที่ซื่อสัตย์โดยเก็บตรรกะเชิงโครงสร้างไว้แม้จะเปลี่ยนรูปแบบไปมาก และโมเดลที่เปิดเผยต่อสาธารณะมักจะถดถอยเป็นภาพที่ตรงกันโดยตรงหรือในแง่ของสไตล์ โดยไม่สามารถถ่ายทอดแนวคิดที่ลึกซึ้งยิ่งขึ้นได้

สรุป

ระบบ AI ที่สร้างสรรค์จะดีขึ้นอย่างเห็นได้ชัดหากสามารถรวมการแสดงออกเชิงนามธรรมเข้ากับการสร้างแนวคิดได้ ในปัจจุบัน การขอภาพที่อิงจากแนวคิด เช่น ‘ความโกรธ’ หรือ ‘ความสุข’ มักจะส่งผลให้ได้ภาพที่มีสไตล์จากภาพที่ได้รับความนิยมหรือมีคนดูมากที่สุดในเซตข้อมูล ซึ่งเป็นการ จดจำ มากกว่าการสรุปแนวคิด

หลักการนี้อาจมีประโยชน์มากขึ้นหากสามารถนำไปใช้กับการเขียนสร้างสรรค์ เช่น การเขียนวิเคราะห์ การคาดเดา หรือการเขียนนิยายได้