ปัญญาประดิษฐ์

LLaVA-UHD: โมเดล LMM ที่สามารถรับรู้ภาพในอัตราส่วนและความละเอียดสูงได้

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

ความก้าวหน้าและความสำเร็จล่าสุดของโมเดลภาษาขนาดใหญ่ (Large Language Models) ได้เพิ่มขึ้นอย่างมากในด้านการให้เหตุผล การทำความเข้าใจ และการโต้ตอบระหว่างภาษาและภาพ ในเฟรมเวิร์กสมัยใหม่ สามารถทำได้โดยการฉายสัญญาณภาพเข้าไปในโมเดลภาษาขนาดใหญ่หรือ LLM เพื่อให้สามารถมองเห็นโลกได้อย่างมีประสิทธิภาพ ซึ่งเป็นชุดของสถานการณ์ที่ยุทธวิธีการเข้ารหัสภาพมีบทบาทสำคัญ อย่างไรก็ตาม ภาพในโลกแห่งความเป็นจริงไม่เพียงแต่มีหลายสถานการณ์เท่านั้น แต่ยังมีความแตกต่างอย่างมากในด้านความละเอียดและอัตราส่วน ซึ่งเป็นความท้าทายที่สำคัญสำหรับ LLM ในหลายโดเมนและงาน เพื่อแก้ไขความแปรผันของภาพในโลกแห่งความเป็นจริง โมเดลภาษาขนาดใหญ่สมัยใหม่จึงมองเห็นภาพในความละเอียดต่ำ (เช่น 224×224) และอัตราส่วนคงที่ (เช่น 1:1) แม้ว่าการประนีประนอมในการยึดความละเอียดต่ำและอัตราส่วนคงที่จะช่วยเพิ่มความสามารถในการใช้งานของ LLM ในการประยุกต์ใช้จริง แต่ก็ทำให้ภาพ模糊และเกิดการบิดเบือนรูปอย่างรุนแรง การประนีประนอมนี้ส่งผลกระทบอย่างมากต่อความสามารถของโมเดลหลายรูปแบบขนาดใหญ่หรือ LMM โดยเฉพาะโมเดลที่ได้รับการปรับให้เหมาะสมสำหรับงานที่ต้องการความแม่นยำสูง เช่น การรู้จำตัวอักษรและความเข้าใจวัตถุเล็ก นอกจากนี้ เนื่องจากความละเอียดและอัตราส่วนถูกกำหนดไว้ล่วงหน้า โมเดลจึงสามารถทำได้เพียงการเดาภาพที่模糊 ซึ่งนำไปสู่การเกิด “การเห็นภาพหลอก” (hallucination) ซึ่งเป็นสถานการณ์ที่โมเดลสร้างข้อความที่ไม่มีฐานะจริงจากภาพ

ในบทความนี้ เราจะพูดถึง LLaVA-UHD ซึ่งเป็นแนวทางใหม่ที่ใช้ LLaVA-1.5 และ GPT-4V เป็นตัวอย่าง และพยายามเปิดเผยข้อบกพร่องที่ซ่อนอยู่ในยุทธวิธีการเข้ารหัสภาพของพวกมัน โมเดล LLaVA-UHD เป็นโมเดลหลายรูปแบบที่พยายามแก้ไขความท้าทายดังกล่าว โมเดล LLaVA-UHD สามารถรับรู้ภาพในความละเอียดสูงและอัตราส่วนใดๆ ได้ โมเดลนี้ประกอบด้วยสามส่วนหลัก คือ ยุทธวิธีการแบ่งภาพออกเป็นชิ้นเล็กๆ เพื่อเพิ่มประสิทธิภาพและขยายการเข้ารหัส, โมดูลการบีบอัดที่บีบอัดโทเค็นภาพที่ผลิตโดยเครื่องมือเข้ารหัสภาพ, และส่วนจัดระเบียบพื้นที่ที่จัดระเบียบโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่ การทดลองอย่างครอบคลุมแสดงให้เห็นว่าโมเดล LLaVA-UHD สามารถเอาชนะโมเดลภาษาขนาดใหญ่ที่มีคุณภาพสูงสุดใน 9 บンチมาร์กได้ นอกจากนี้ โดยใช้การคำนวณการอนุมานเพียง 94% โมเดล LLaVA-UHD สามารถรองรับภาพที่มีความละเอียดมากกว่า 6 เท่า (672×1088) ได้

LLaVA-UHD : การรับรู้ภาพในอัตราส่วนและความละเอียดสูงได้อย่างมีประสิทธิภาพ

การให้เหตุผล การทำความเข้าใจ และการโต้ตอบระหว่างภาษาและภาพได้ทำความก้าวหน้าอย่างมากในช่วงหลัง ส่วนใหญ่เนื่องมาจากการผลักดันโมเดลภาษาขนาดใหญ่ ในเฟรมเวิร์กสมัยใหม่ สามารถทำได้โดยการฉายสัญญาณภาพเข้าไปใน LLM เพื่อให้สามารถมองเห็นโลกได้อย่างมีประสิทธิภาพ ซึ่งเป็นชุดของสถานการณ์ที่ยุทธวิธีการเข้ารหัสภาพมีบทบาทสำคัญ ความแตกต่างในสถานการณ์สะท้อนถึงการครอบคลุมที่แคบของ LLM ในหลายโดเมนและงาน ในขณะที่ความแตกต่างในความละเอียดและอัตราส่วนแสดงถึงการเปลี่ยนแปลงขนาดใหญ่ในภาพของโลกแห่งความเป็นจริง ซึ่งเป็นความท้าทายที่ยากจะจัดการ

ไม่เหมือนกับการใช้ขนาดเล็กที่ลดความแปรผัน โมเดลหลัง BERT จัดการกับความสำคัญของความแปรผันโดยการมองเห็นภาพในความละเอียดต่ำ (เช่น 224×224) และอัตราส่วนคงที่ (1:1) เพื่อให้ได้ภาพของโลกแห่งความเป็นจริง แม้ว่าการประนีประนอมนี้จะมีประโยชน์ในการรับรองความสามารถในการใช้งานของ LLM ในการประยุกต์ใช้จริง แต่ก็ทำให้ภาพ模糊และเกิดการบิดเบือนรูปอย่างรุนแรง ซึ่งส่งผลกระทบต่อความสามารถของโมเดลหลายรูปแบบขนาดใหญ่หรือ LMM โดยเฉพาะโมเดลที่ได้รับการปรับให้เหมาะสมสำหรับงานที่ต้องการความแม่นยำสูง เช่น การรู้จำตัวอักษรและความเข้าใจวัตถุเล็ก

มีสองเหตุผลหลักที่ทำให้โมเดล LMM ไม่สามารถรับรู้ภาพในความละเอียดสูงและอัตราส่วนใดๆ ได้ ประการแรก เนื่องจากเครื่องมือเข้ารหัสภาพถูกฝึกในความละเอียดคงที่ จึงทำให้ยากสำหรับโมเดลและเครื่องมือเข้ารหัสภาพในการจัดการกับภาพที่มีอัตราส่วนและความละเอียดต่างๆ ซึ่งส่งผลกระทบต่อความสามารถในการปรับให้เหมาะสมของโมเดล ประการที่สอง การเข้ารหัสภาพที่มีความละเอียดสูงโดยตรงโดยใช้ Vision Transformer มีค่าใช้จ่ายในการคำนวณสูงเกี่ยวข้องกับขนาดของภาพ นอกจากนี้ ค่าใช้จ่ายในการคำนวณอาจสูงกว่าสำหรับโมเดลภาษาขนาดใหญ่ในการประมวลผลโทเค็นภาพจำนวนมากสำหรับภาพที่มีความละเอียดสูง ซึ่งส่งผลกระทบต่อประสิทธิภาพโดยรวมของโมเดล

ภาพด้านบนแสดงผลการทดลองของ GPT-4V ในการระบุจำนวนวัตถุในภาพ โมเดล LLaVA-UHD มีส่วนประกอบหลักสามส่วน คือ ยุทธวิธีการแบ่งภาพออกเป็นชิ้นเล็กๆ เพื่อเพิ่มประสิทธิภาพและขยายการเข้ารหัส, โมดูลการบีบอัดที่บีบอัดโทเค็นภาพที่ผลิตโดยเครื่องมือเข้ารหัสภาพ, และส่วนจัดระเบียบพื้นที่ที่จัดระเบียบโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่

LLaVA-UHD : วิธีการและสถาปัตยกรรม

บนพื้นฐานของการเรียนรู้จากการทดลองเบื้องต้นเพื่อศึกษาฤบบางอย่าง รวมถึง GPT-4V และ LLaVA-1.5 โมเดล LLaVA-UHD ใช้สถาปัตยกรรมที่ประกอบด้วยสามส่วน

ยุทธวิธีการแบ่งภาพออกเป็นชิ้นเล็กๆ เพื่อเพิ่มประสิทธิภาพและขยายการเข้ารหัส, โมดูลการบีบอัดที่บีบอัดโทเค็นภาพที่ผลิตโดยเครื่องมือเข้ารหัสภาพ, และส่วนจัดระเบียบพื้นที่ที่จัดระเบียบโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่

การเข้ารหัสภาพแบบโมดูลาร์

วิธีการทั่วไปในการจัดการกับภาพที่มีความละเอียดสูงและอัตราส่วนต่างๆ คือการแทรกตำแหน่งการฝังของ Vision Transformer หรือ ViT ไปยังรูปที่ต้องการสำหรับการเข้ารหัสโดยตรง อย่างไรก็ตาม การใช้วิธีการนี้มักจะเกี่ยวข้องกับค่าใช้จ่ายในการคำนวณสูงและปัญหาที่อยู่นอกการกระจาย ซึ่งนำไปสู่การเสื่อมสภาพของประสิทธิภาพ

ชั้นการบีบอัด

ปัญหาทั่วไปที่โมเดล LLM เผชิญเมื่อประมวลผลภาพที่มีความละเอียดสูงคือจำนวนโทเค็นภาพที่ต้องประมวลผลสูงมาก ซึ่งใช้ทรัพยากรการคำนวณและค่าใช้จ่ายส่วนใหญ่

ส่วนจัดระเบียบพื้นที่สำหรับชิ้นภาพ

เป็นเรื่องจำเป็นที่จะต้องแจ้งให้โมเดลภาษาขนาดใหญ่ทราบถึงการวางแนวของชิ้นภาพ เนื่องจากการแบ่งภาพเป็นแบบไดนามิกสำหรับภาพต่างๆ

LLaVA-UHD : การทดลองและผลลัพธ์

โมเดล LLaVA-UHD ถูกประเมินบน 9 บンチมาร์กที่ได้รับความนิยม รวมถึงบンチมาร์กการถามคำถามภาพทั่วไป บンチมาร์กการถามคำถามภาพโดยอาศัยตัวอักษร และบンチมาร์กที่ครอบคลุม

ความคิดสุดท้าย

ในบทความนี้ เราพูดถึง LLaVA-UHD ซึ่งเป็นแนวทางใหม่ที่ใช้ LLaVA-1.5 และ GPT-4V เป็นตัวอย่าง และพยายามเปิดเผยข้อบกพร่องที่ซ่อนอยู่ในยุทธวิธีการเข้ารหัสภาพของพวกมัน โมเดล LLaVA-UHD เป็นโมเดลหลายรูปแบบที่พยายามแก้ไขความท้าทายดังกล่าว โมเดล LLaVA-UHD สามารถรับรู้ภาพในความละเอียดสูงและอัตราส่วนใดๆ ได้

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล