Kecerdasan buatan

LLaVA-UHD: Sebuah LMM yang Memahami Setiap Aspek Rasio dan Gambar Resolusi Tinggi

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Kemajuan dan kemajuan baru-baru ini dalam Large Language Models telah mengalami peningkatan signifikan dalam alasan visi-bahasa, pemahaman, dan interaksi. Kerangka modern mencapai ini dengan memproyeksikan sinyal visual ke LLM atau Large Language Models untuk memungkinkan kemampuan mereka untuk memahami dunia secara visual, sebuah array skenario di mana strategi pengkodean visual memainkan peran kunci. Namun, gambar dunia nyata tidak hanya berisi berbagai skenario, mereka juga bervariasi secara signifikan dalam hal resolusi dan aspek rasio, menimbulkan tantangan signifikan bagi LLM di berbagai domain dan tugas. Untuk mengatasi varians signifikan yang ditimbulkan oleh gambar dunia nyata, model bahasa besar modern memahami gambar dalam resolusi rendah, yaitu 224×224, dan aspek rasio tetap, yaitu 1:1. Meskipun kompromi untuk tetap menggunakan resolusi rendah dan aspek rasio tetap meningkatkan generalisasi LLM dalam aplikasi dunia nyata, seringkali mengaburkan konten gambar secara signifikan serta menyebabkan distorsi bentuk parah. Kompromi ini secara signifikan mempengaruhi kemampuan model multi-modalitas besar atau LMM, terutama yang dioptimalkan untuk tugas-tugas halus, termasuk pengenalan karakter optik dan pemahaman objek kecil. Selanjutnya, karena resolusi dan aspek rasio telah ditentukan sebelumnya, model hanya dapat membuat tebakan terbaik untuk gambar yang kabur, menghasilkan halusinasi model, suatu keadaan di mana model menghasilkan respons teks yang tidak didasarkan pada fakta dalam gambar.

Dalam artikel ini, kita akan membahas tentang LLaVA-UHD, sebuah pendekatan baru yang pertama kali mengambil kerangka LLaVA-1.5 dan GPT-4V sebagai contoh representatif, dan mencoba untuk mengungkap kelemahan sistematis yang terkait dengan strategi pengkodean visual mereka. Kerangka LLaVA-UHD, sebuah model multi-modal, adalah upaya untuk mengatasi tantangan. Kerangka LLaVA-UHD dapat memahami gambar dalam resolusi tinggi serta dalam aspek rasio apa pun. Kerangka LLaVA-UHD dibangun di sekitar tiga komponen kunci. Pertama, strategi modularisasi gambar yang membagi gambar resolusi asli menjadi potongan-potongan yang lebih kecil dengan ukuran variabel dalam upaya untuk meningkatkan efisiensi dan memperluas pengkodean. Kedua, modul kompresi yang mengompresi token gambar yang dihasilkan oleh pengkode visual lebih lanjut. Ketiga, skema spasial yang mengatur token potongan untuk model bahasa besar. Eksperimen komprehensif menunjukkan bahwa kerangka LLaVA-UHD dapat mengungguli model bahasa besar yang ada di 9 benchmark. Selain itu, dengan menggunakan hanya 94% komputasi inferensi, kerangka LLaVA-UHD dapat mendukung gambar dengan resolusi 6 kali lebih besar, yaitu 672×1088.

LLaVA-UHD : Memahami Gambar dalam Aspek Rasio dan Resolusi Tinggi

Alasan visi-bahasa, pemahaman, dan interaksi telah membuat kemajuan signifikan akhir-akhir ini, sebagian besar karena dorongan baru untuk Large Language Models. Dalam kerangka modern, hal ini dicapai dengan memasukkan sinyal visual ke LLM (Large Language Models) untuk membuat mereka mampu menafsirkan dunia nyata secara visual, sebuah array skenario yang bergantung pada strategi pengkodean visual. Perbedaan skenario mencerminkan cakupan LLM yang sempit di berbagai domain dan tugas, sedangkan perbedaan resolusi dan aspek rasio mengungkapkan varians intrakelas yang besar dalam gambar dunia nyata yang sulit ditangani. Tidak seperti skala kecil yang menurunkan varians, model setelah BERT menangani signifikansi dari resolusi rendah (misalnya, untuk LLaVA-UHD itu 224×224) dari gambar dengan aspek rasio tetap, 1:1 untuk memberikan gambar dunia nyata. Meskipun kompromi ini berguna untuk memastikan generalisasi LLM dalam aplikasi dunia nyata, seringkali menghasilkan gambar yang sangat kabur serta menyebabkan distorsi bentuk parah. Kompromi ini secara signifikan mempengaruhi kemampuan model multi-modalitas besar atau LMM (misalnya, tugas-tugas halus), seperti pengenalan karakter optik dan pemahaman objek kecil. Karena resolusi dan aspek rasio telah ditentukan sebelumnya, model hanya dapat menebak gambar yang kabur, menghasilkan halusinasi model, suatu keadaan di mana model menghasilkan respons teks yang tidak didasarkan pada fakta dalam gambar.

… (rest of the translation remains the same, following the exact structure and format as the original)

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.

Unite.AI

LLaVA-UHD: Sebuah LMM yang Memahami Setiap Aspek Rasio dan Gambar Resolusi Tinggi

LLaVA-UHD : Memahami Gambar dalam Aspek Rasio dan Resolusi Tinggi

You may like