ปัญญาประดิษฐ์
LLaVA-UHD: โมเดล LMM ที่สามารถรับรู้ภาพในอัตราส่วนและความละเอียดสูงได้
ความก้าวหน้าและความสำเร็จล่าสุดของโมเดลภาษาขนาดใหญ่ (Large Language Models) ได้เพิ่มขึ้นอย่างมากในด้านการให้เหตุผล การทำความเข้าใจ และการโต้ตอบระหว่างภาษาและภาพ ในเฟรมเวิร์กสมัยใหม่ สามารถทำได้โดยการฉายสัญญาณภาพเข้าไปในโมเดลภาษาขนาดใหญ่หรือ LLM เพื่อให้สามารถมองเห็นโลกได้อย่างมีประสิทธิภาพ ซึ่งเป็นชุดของสถานการณ์ที่ยุทธวิธีการเข้ารหัสภาพมีบทบาทสำคัญ อย่างไรก็ตาม ภาพในโลกแห่งความเป็นจริงไม่เพียงแต่มีหลายสถานการณ์เท่านั้น แต่ยังมีความแตกต่างอย่างมากในด้านความละเอียดและอัตราส่วน ซึ่งเป็นความท้าทายที่สำคัญสำหรับ LLM ในหลายโดเมนและงาน เพื่อแก้ไขความแปรผันของภาพในโลกแห่งความเป็นจริง โมเดลภาษาขนาดใหญ่สมัยใหม่จึงมองเห็นภาพในความละเอียดต่ำ (เช่น 224×224) และอัตราส่วนคงที่ (เช่น 1:1) แม้ว่าการประนีประนอมในการยึดความละเอียดต่ำและอัตราส่วนคงที่จะช่วยเพิ่มความสามารถในการใช้งานของ LLM ในการประยุกต์ใช้จริง แต่ก็ทำให้ภาพ模糊และเกิดการบิดเบือนรูปอย่างรุนแรง การประนีประนอมนี้ส่งผลกระทบอย่างมากต่อความสามารถของโมเดลหลายรูปแบบขนาดใหญ่หรือ LMM โดยเฉพาะโมเดลที่ได้รับการปรับให้เหมาะสมสำหรับงานที่ต้องการความแม่นยำสูง เช่น การรู้จำตัวอักษรและความเข้าใจวัตถุเล็ก นอกจากนี้ เนื่องจากความละเอียดและอัตราส่วนถูกกำหนดไว้ล่วงหน้า โมเดลจึงสามารถทำได้เพียงการเดาภาพที่模糊 ซึ่งนำไปสู่การเกิด “การเห็นภาพหลอก” (hallucination) ซึ่งเป็นสถานการณ์ที่โมเดลสร้างข้อความที่ไม่มีฐานะจริงจากภาพ
ในบทความนี้ เราจะพูดถึง LLaVA-UHD ซึ่งเป็นแนวทางใหม่ที่ใช้ LLaVA-1.5 และ GPT-4V เป็นตัวอย่าง และพยายามเปิดเผยข้อบกพร่องที่ซ่อนอยู่ในยุทธวิธีการเข้ารหัสภาพของพวกมัน โมเดล LLaVA-UHD เป็นโมเดลหลายรูปแบบที่พยายามแก้ไขความท้าทายดังกล่าว โมเดล LLaVA-UHD สามารถรับรู้ภาพในความละเอียดสูงและอัตราส่วนใดๆ ได้ โมเดลนี้ประกอบด้วยสามส่วนหลัก คือ ยุทธวิธีการแบ่งภาพออกเป็นชิ้นเล็กๆ เพื่อเพิ่มประสิทธิภาพและขยายการเข้ารหัส, โมดูลการบีบอัดที่บีบอัดโทเค็นภาพที่ผลิตโดยเครื่องมือเข้ารหัสภาพ, และส่วนจัดระเบียบพื้นที่ที่จัดระเบียบโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่ การทดลองอย่างครอบคลุมแสดงให้เห็นว่าโมเดล LLaVA-UHD สามารถเอาชนะโมเดลภาษาขนาดใหญ่ที่มีคุณภาพสูงสุดใน 9 บンチมาร์กได้ นอกจากนี้ โดยใช้การคำนวณการอนุมานเพียง 94% โมเดล LLaVA-UHD สามารถรองรับภาพที่มีความละเอียดมากกว่า 6 เท่า (672×1088) ได้
LLaVA-UHD : การรับรู้ภาพในอัตราส่วนและความละเอียดสูงได้อย่างมีประสิทธิภาพ
การให้เหตุผล การทำความเข้าใจ และการโต้ตอบระหว่างภาษาและภาพได้ทำความก้าวหน้าอย่างมากในช่วงหลัง ส่วนใหญ่เนื่องมาจากการผลักดันโมเดลภาษาขนาดใหญ่ ในเฟรมเวิร์กสมัยใหม่ สามารถทำได้โดยการฉายสัญญาณภาพเข้าไปใน LLM เพื่อให้สามารถมองเห็นโลกได้อย่างมีประสิทธิภาพ ซึ่งเป็นชุดของสถานการณ์ที่ยุทธวิธีการเข้ารหัสภาพมีบทบาทสำคัญ ความแตกต่างในสถานการณ์สะท้อนถึงการครอบคลุมที่แคบของ LLM ในหลายโดเมนและงาน ในขณะที่ความแตกต่างในความละเอียดและอัตราส่วนแสดงถึงการเปลี่ยนแปลงขนาดใหญ่ในภาพของโลกแห่งความเป็นจริง ซึ่งเป็นความท้าทายที่ยากจะจัดการ
ไม่เหมือนกับการใช้ขนาดเล็กที่ลดความแปรผัน โมเดลหลัง BERT จัดการกับความสำคัญของความแปรผันโดยการมองเห็นภาพในความละเอียดต่ำ (เช่น 224×224) และอัตราส่วนคงที่ (1:1) เพื่อให้ได้ภาพของโลกแห่งความเป็นจริง แม้ว่าการประนีประนอมนี้จะมีประโยชน์ในการรับรองความสามารถในการใช้งานของ LLM ในการประยุกต์ใช้จริง แต่ก็ทำให้ภาพ模糊และเกิดการบิดเบือนรูปอย่างรุนแรง ซึ่งส่งผลกระทบต่อความสามารถของโมเดลหลายรูปแบบขนาดใหญ่หรือ LMM โดยเฉพาะโมเดลที่ได้รับการปรับให้เหมาะสมสำหรับงานที่ต้องการความแม่นยำสูง เช่น การรู้จำตัวอักษรและความเข้าใจวัตถุเล็ก
มีสองเหตุผลหลักที่ทำให้โมเดล LMM ไม่สามารถรับรู้ภาพในความละเอียดสูงและอัตราส่วนใดๆ ได้ ประการแรก เนื่องจากเครื่องมือเข้ารหัสภาพถูกฝึกในความละเอียดคงที่ จึงทำให้ยากสำหรับโมเดลและเครื่องมือเข้ารหัสภาพในการจัดการกับภาพที่มีอัตราส่วนและความละเอียดต่างๆ ซึ่งส่งผลกระทบต่อความสามารถในการปรับให้เหมาะสมของโมเดล ประการที่สอง การเข้ารหัสภาพที่มีความละเอียดสูงโดยตรงโดยใช้ Vision Transformer มีค่าใช้จ่ายในการคำนวณสูงเกี่ยวข้องกับขนาดของภาพ นอกจากนี้ ค่าใช้จ่ายในการคำนวณอาจสูงกว่าสำหรับโมเดลภาษาขนาดใหญ่ในการประมวลผลโทเค็นภาพจำนวนมากสำหรับภาพที่มีความละเอียดสูง ซึ่งส่งผลกระทบต่อประสิทธิภาพโดยรวมของโมเดล

ภาพด้านบนแสดงผลการทดลองของ GPT-4V ในการระบุจำนวนวัตถุในภาพ โมเดล LLaVA-UHD มีส่วนประกอบหลักสามส่วน คือ ยุทธวิธีการแบ่งภาพออกเป็นชิ้นเล็กๆ เพื่อเพิ่มประสิทธิภาพและขยายการเข้ารหัส, โมดูลการบีบอัดที่บีบอัดโทเค็นภาพที่ผลิตโดยเครื่องมือเข้ารหัสภาพ, และส่วนจัดระเบียบพื้นที่ที่จัดระเบียบโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่
LLaVA-UHD : วิธีการและสถาปัตยกรรม
บนพื้นฐานของการเรียนรู้จากการทดลองเบื้องต้นเพื่อศึกษาฤบบางอย่าง รวมถึง GPT-4V และ LLaVA-1.5 โมเดล LLaVA-UHD ใช้สถาปัตยกรรมที่ประกอบด้วยสามส่วน

ยุทธวิธีการแบ่งภาพออกเป็นชิ้นเล็กๆ เพื่อเพิ่มประสิทธิภาพและขยายการเข้ารหัส, โมดูลการบีบอัดที่บีบอัดโทเค็นภาพที่ผลิตโดยเครื่องมือเข้ารหัสภาพ, และส่วนจัดระเบียบพื้นที่ที่จัดระเบียบโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่
การเข้ารหัสภาพแบบโมดูลาร์
วิธีการทั่วไปในการจัดการกับภาพที่มีความละเอียดสูงและอัตราส่วนต่างๆ คือการแทรกตำแหน่งการฝังของ Vision Transformer หรือ ViT ไปยังรูปที่ต้องการสำหรับการเข้ารหัสโดยตรง อย่างไรก็ตาม การใช้วิธีการนี้มักจะเกี่ยวข้องกับค่าใช้จ่ายในการคำนวณสูงและปัญหาที่อยู่นอกการกระจาย ซึ่งนำไปสู่การเสื่อมสภาพของประสิทธิภาพ
ชั้นการบีบอัด
ปัญหาทั่วไปที่โมเดล LLM เผชิญเมื่อประมวลผลภาพที่มีความละเอียดสูงคือจำนวนโทเค็นภาพที่ต้องประมวลผลสูงมาก ซึ่งใช้ทรัพยากรการคำนวณและค่าใช้จ่ายส่วนใหญ่
ส่วนจัดระเบียบพื้นที่สำหรับชิ้นภาพ
เป็นเรื่องจำเป็นที่จะต้องแจ้งให้โมเดลภาษาขนาดใหญ่ทราบถึงการวางแนวของชิ้นภาพ เนื่องจากการแบ่งภาพเป็นแบบไดนามิกสำหรับภาพต่างๆ
LLaVA-UHD : การทดลองและผลลัพธ์
โมเดล LLaVA-UHD ถูกประเมินบน 9 บンチมาร์กที่ได้รับความนิยม รวมถึงบンチมาร์กการถามคำถามภาพทั่วไป บンチมาร์กการถามคำถามภาพโดยอาศัยตัวอักษร และบンチมาร์กที่ครอบคลุม

ความคิดสุดท้าย
ในบทความนี้ เราพูดถึง LLaVA-UHD ซึ่งเป็นแนวทางใหม่ที่ใช้ LLaVA-1.5 และ GPT-4V เป็นตัวอย่าง และพยายามเปิดเผยข้อบกพร่องที่ซ่อนอยู่ในยุทธวิธีการเข้ารหัสภาพของพวกมัน โมเดล LLaVA-UHD เป็นโมเดลหลายรูปแบบที่พยายามแก้ไขความท้าทายดังกล่าว โมเดล LLaVA-UHD สามารถรับรู้ภาพในความละเอียดสูงและอัตราส่วนใดๆ ได้












