Trí tuệ nhân tạo

LLaVA-UHD: Nhận thức hiệu quả hình ảnh ở bất kỳ tỷ lệ khung hình và độ phân giải cao

Đã xuất bản 6 tháng 6, 2024

Đã cập nhật 21 tháng 5, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Những tiến bộ và phát triển gần đây của Mô hình Ngôn ngữ Lớn đã trải qua một sự gia tăng đáng kể trong khả năng lý luận, hiểu biết và tương tác ngôn ngữ-hình ảnh. Các khung hiện đại đạt được điều này bằng cách chiếu tín hiệu hình ảnh vào LLM hoặc Mô hình Ngôn ngữ Lớn để cho phép chúng có khả năng giải thích thế giới một cách trực quan, một loạt các kịch bản mà các chiến lược mã hóa hình ảnh đóng vai trò quan trọng. Tuy nhiên, hình ảnh thế giới thực không chỉ chứa một loạt các kịch bản, mà chúng cũng khác nhau đáng kể về độ phân giải và tỷ lệ khung hình, tạo ra những thách thức đáng kể cho LLM trên các lĩnh vực và nhiệm vụ khác nhau. Để giải quyết sự biến đổi đáng kể do hình ảnh thế giới thực gây ra, các mô hình ngôn ngữ lớn hiện đại nhận thức hình ảnh ở độ phân giải thấp, tức là 224×224, và tỷ lệ khung hình cố định, tức là 1:1. Mặc dù việc thỏa hiệp để gắn bó với độ phân giải thấp và tỷ lệ khung hình cố định làm tăng tính tổng quát của LLM trong các ứng dụng thế giới thực, nhưng nó thường dẫn đến hình ảnh mờ và biến dạng hình dạng nghiêm trọng. Việc thỏa hiệp này ảnh hưởng đáng kể đến khả năng của các mô hình đa phương thức lớn hoặc LMM, đặc biệt là những mô hình được tối ưu hóa cho các nhiệm vụ tinh粒 như nhận dạng ký tự quang học và hiểu đối tượng nhỏ. Ngoài ra, vì độ phân giải và tỷ lệ khung hình đã được xác định trước, các mô hình chỉ có thể đưa ra những猜 đoán về hình ảnh mờ, dẫn đến ảo giác của mô hình, một tình huống trong đó mô hình tạo ra các phản hồi văn bản không dựa trên thực tế trong hình ảnh.

Trong bài viết này, chúng tôi sẽ thảo luận về LLaVA-UHD, một phương pháp mới đầu tiên lấy LLaVA-1.5 và GPT-4V làm ví dụ đại diện, và cố gắng暴露 các khiếm khuyết hệ thống trong chiến lược mã hóa hình ảnh của chúng. Khung LLaVA-UHD, một mô hình đa phương thức, là một nỗ lực để giải quyết những thách thức này. Khung LLaVA-UHD có thể nhận thức hình ảnh ở độ phân giải cao cũng như ở bất kỳ tỷ lệ khung hình nào. Khung LLaVA-UHD được xây dựng xung quanh ba thành phần chính. Đầu tiên, một chiến lược mã hóa hình ảnh模块 hóa mà chia hình ảnh độ phân giải gốc thành các lát cắt nhỏ có kích thước biến đổi để tăng hiệu quả và mở rộng mã hóa. Tiếp theo, một mô-đun nén mà nén các token hình ảnh được tạo ra bởi các bộ mã hóa hình ảnh thêm. Cuối cùng, một lược đồ không gian mà tổ chức các token lát cắt cho các mô hình ngôn ngữ lớn. Các thí nghiệm toàn diện cho thấy rằng khung LLaVA-UHD có thể vượt trội so với các mô hình ngôn ngữ lớn hiện đại trên 9 tiêu chuẩn. Hơn nữa, bằng cách sử dụng chỉ 94% tính toán suy luận, khung LLaVA-UHD có thể hỗ trợ hình ảnh với độ phân giải lớn hơn 6 lần, tức là 672×1088.

LLaVA-UHD: Nhận thức hiệu quả hình ảnh ở bất kỳ tỷ lệ khung hình và độ phân giải cao

Lý luận, hiểu biết và tương tác ngôn ngữ-hình ảnh đã đạt được tiến bộ đáng kể gần đây, chủ yếu do sự thúc đẩy gần đây của Mô hình Ngôn ngữ Lớn. Trong các khung hiện đại, điều này được thực hiện bằng cách chiếu tín hiệu hình ảnh vào LLM hoặc Mô hình Ngôn ngữ Lớn để cho phép chúng có khả năng giải thích thế giới một cách trực quan, một loạt các kịch bản mà các chiến lược mã hóa hình ảnh đóng vai trò quan trọng. Sự khác biệt trong kịch bản phản ánh phạm vi bảo vệ hẹp của LLM trên các lĩnh vực và nhiệm vụ khác nhau, trong khi sự khác biệt trong độ phân giải và tỷ lệ khung hình tiết lộ sự biến đổi lớn trong hình ảnh thế giới thực, điều này khó xử lý. Không giống như quy mô nhỏ làm giảm sự biến đổi, các mô hình sau BERT giải quyết sự biến đổi này bằng cách sử dụng độ phân giải thấp (ví dụ, đối với LLaVA-UHD là 224×224) của hình ảnh với tỷ lệ khung hình cố định, 1:1 để cung cấp hình ảnh thế giới thực. Mặc dù việc thỏa hiệp này hữu ích cho việc đảm bảo tính tổng quát của LLM trong các ứng dụng thế giới thực, nhưng nó thường dẫn đến hình ảnh rất mờ và biến dạng hình dạng nghiêm trọng. Điều này làm giảm khả năng của các mô hình đa phương thức lớn hoặc LMM (ví dụ, các nhiệm vụ tinh粒 như nhận dạng ký tự quang học và hiểu đối tượng nhỏ). Vì độ phân giải và tỷ lệ khung hình đã được xác định trước, các mô hình chỉ có thể đưa ra những猜 đoán về hình ảnh mờ, dẫn đến ảo giác của mô hình, một tình huống trong đó mô hình tạo ra các phản hồi văn bản không dựa trên thực tế trong hình ảnh. Vậy tại sao các mô hình LMM không nhận thức hình ảnh ở độ phân giải cao và tỷ lệ khung hình biến đổi?

Có hai lý do chính tại sao các mô hình LMM không thể nhận thức hình ảnh với độ phân giải cao và tỷ lệ khung hình biến đổi. Đầu tiên, vì các bộ mã hóa hình ảnh được đào tạo trước trong độ phân giải cố định, điều này làm cho mô hình và bộ mã hóa khó xử lý hình ảnh với tỷ lệ khung hình và độ phân giải khác nhau, điều này ảnh hưởng đáng kể đến khả năng thích ứng của mô hình. Thứ hai, việc mã hóa hình ảnh độ phân giải cao trực tiếp sử dụng bộ mã hóa hình ảnh liên quan đến chi phí tính toán đáng kể về kích thước hình ảnh. Hơn nữa, chi phí tính toán có thể cao hơn đáng kể cho mô hình ngôn ngữ lớn để xử lý số lượng lớn token hình ảnh, điều này ảnh hưởng đáng kể đến hiệu quả tổng thể của mô hình. Để đối phó với những thách thức này, LLaVA-UHD, một mô hình đa phương thức lớn nhận thức hình ảnh độ phân giải cao và tỷ lệ khung hình biến đổi, lấy LLaVA-1.5 và GPT-4V làm ví dụ đại diện, và cố gắng暴露 các khiếm khuyết hệ thống trong chiến lược mã hóa hình ảnh của chúng.

Hình ảnh trên phản ánh kết quả thí nghiệm của GPT-4V trong việc xác định số lượng đối tượng trong hình ảnh. Tại cốt lõi, khung LLaVA-UHD có ba thành phần. Đầu tiên, một chiến lược mã hóa hình ảnh模块 hóa mà chia hình ảnh độ phân giải gốc thành các lát cắt nhỏ có kích thước biến đổi để tăng hiệu quả và mở rộng mã hóa. Trái ngược với các LLM gần đây mà phù hợp với hình ảnh vào một số độ phân giải và tỷ lệ khung hình cố định, các lát cắt có kích thước biến đổi được tạo ra bởi khung LLaVA-UHD cho phép khả năng thích ứng đầy đủ với hình ảnh độ phân giải gốc mà không làm biến dạng hình dạng, thay đổi kích thước hoặc đệm. Thứ hai, mô hình nén các token hình ảnh bằng một lớp nén để giảm đáng kể tính toán cho LLM. Cuối cùng, mô hình tổ chức các token lát cắt nén trong một lược đồ không gian để thông báo vị trí lát cắt trong hình ảnh cho mô hình ngôn ngữ lớn.

LLaVA-UHD: Phương pháp và Kiến trúc

Dựa trên kiến thức từ một số thí nghiệm tiền nhiệm để nghiên cứu các khung hiện có bao gồm GPT-4V và LLaVA-1.5, khung LLaVA-UHD thực hiện một kiến trúc ba thành phần như được minh họa trong hình ảnh sau.

Đầu tiên, một chiến lược mã hóa hình ảnh模块 hóa mà chia hình ảnh độ phân giải gốc thành các lát cắt nhỏ có kích thước biến đổi để tăng hiệu quả và mở rộng mã hóa. Tiếp theo, một mô-đun nén mà nén các token hình ảnh được tạo ra bởi các bộ mã hóa hình ảnh thêm. Cuối cùng, một lược đồ không gian mà tổ chức các token lát cắt cho các mô hình ngôn ngữ lớn. Hãy cùng xem xét chi tiết các thành phần này.

Mã hóa hình ảnh模块 hóa

Một cách tiếp cận phổ biến để xử lý hình ảnh độ phân giải cao với tỷ lệ khung hình khác nhau là nội suy các vị trí nhúng của Bộ mã hóa hình ảnh hoặc ViT đến hình dạng mục tiêu để mã hóa trực tiếp như một整 thể. Tuy nhiên, việc thực hiện cách tiếp cận này thường đi kèm với chi phí tính toán cao và các vấn đề ngoài phân phối dẫn đến suy giảm hiệu suất thêm. Để giải quyết thách thức này, khung LLaVA-UHD trình bày một chiến lược mã hóa hình ảnh模块 hóa mà nhằm chia hình ảnh độ phân giải gốc thành các lát cắt nhỏ có kích thước biến đổi, trong đó hình dạng của mỗi lát cắt rất gần với cài đặt tiền đào tạo tiêu chuẩn của bộ mã hóa hình ảnh. Nhờ sử dụng các lát cắt có kích thước biến đổi, khung LLaVA-UHD có thể đạt được khả năng thích ứng đầy đủ với hình ảnh độ phân giải gốc mà không cần thực hiện bất kỳ biến dạng hình dạng nào. Hơn nữa, mục tiêu chính của chiến lược mã hóa hình ảnh là xác định một phân chia của hình ảnh độ phân giải cao với sự thay đổi tối thiểu về độ phân giải của mỗi lát cắt. Đối với một hình ảnh có độ phân giải nhất định (w, h) và một bộ mã hóa hình ảnh được đào tạo trước trong một độ phân giải khác, khung LLaVA-UHD đầu tiên xác định số lượng lát cắt lý tưởng cần thiết để xử lý hình ảnh. Khung sau đó phân chia số lượng lát cắt thành m cột và n hàng. Khung sau đó định nghĩa một hàm điểm để đo sự偏差 từ cài đặt tiền đào tạo tiêu chuẩn của bộ mã hóa hình ảnh. Về mặt lý thuyết, khung LLaVA-UHD có thể chứng minh chiến lược phân chia được thực hiện trong kiến trúc của nó đảm bảo sự thay đổi tối thiểu và sự thay đổi tồi tệ nhất vừa phải về độ phân giải của mỗi lát cắt so với cài đặt tiền đào tạo tiêu chuẩn.

Hơn nữa, đa số các LLM hiện có thực hiện độ phân giải tĩnh cho mã hóa lát cắt hình ảnh, một cách tiếp cận ngăn cản khả năng thích ứng đầy đủ của mô hình với hình ảnh độ phân giải gốc vì chúng chỉ có thể truy cập vào một số lát cắt có hình dạng cố định. Ngoài ra, độ phân giải lát cắt tĩnh làm tổn thương hiệu suất, hiệu quả và tính chính xác của mô hình vì nó dẫn đến việc thay đổi kích thước hoặc đệm hình dạng không thể tránh khỏi. Để giải quyết vấn đề này, khung LLaVA-UHD đề xuất mã hóa các lát cắt hình ảnh theo tỷ lệ khung hình được xác định bởi chiến lược phân chia. Cụ thể, khung LLaVA-UHD đầu tiên thay đổi kích thước hình ảnh gốc theo tỷ lệ khung hình để số lượng bản vá vừa với ngân sách tiền đào tạo, tức là số lượng vị trí nhúng trong bộ mã hóa hình ảnh, tối đa. Khung LLaVA-UHD sau đó biến đổi chuỗi vị trí nhúng 1D được đào tạo trước của bộ mã hóa hình ảnh thành định dạng 2D theo cài đặt tiền đào tạo của nó.

Lớp nén

Một vấn đề phổ biến mà các LLM gặp phải khi xử lý hình ảnh độ phân giải cao là số lượng token hình ảnh mà chúng phải xử lý là đáng kể (ví dụ, khung LLaVA-1.5 tạo ra khoảng 3500 token hình ảnh khi xử lý một hình ảnh có độ phân giải 672×1008), chiếm một phần lớn tài nguyên tính toán và chi phí. Để giải quyết thách thức này, mô hình LLaVA-UHD thực hiện một lớp lấy mẫu lại chung để nén các token hình ảnh của mỗi lát cắt hình ảnh. Mô hình sau đó thực hiện một tập hợp vector truy vấn thông qua sự chú ý chéo để lấy mẫu lại đầu ra của token hình ảnh bởi các bộ mã hóa hình ảnh đến một số lượng thấp hơn. So với các chiến lược dự án hình ảnh đa lớp hiện có, cách tiếp cận lấy mẫu lại của LLaVA-UHD có thể duy trì một số lượng token hình ảnh hợp lý nhưng cố định, bất kể độ phân giải hình ảnh, làm cho khung LLaVA-UHD tương thích hơn với các nhiệm vụ xử lý và hiểu hình ảnh độ phân giải cao. Để minh họa, khung LLaVA-UDH tạo ra cùng số lượng token khi mã hóa hình ảnh có độ phân giải 672×1008 như khung LLaVA-1.5 tạo ra khi mã hóa hình ảnh có độ phân giải 336×336, gần 6 lần hiệu quả hơn so với đối thủ của nó.

Lược đồ không gian cho lát cắt hình ảnh

Điều cần thiết là phải thông báo cho mô hình ngôn ngữ lớn về tổ chức không gian của các lát cắt hình ảnh vì việc phân chia hình ảnh là động trên các hình ảnh khác nhau. Khung LLaVA-UHD thiết kế và thực hiện một lược đồ không gian sử dụng hai token đặc biệt để thông báo cho LLM về vị trí tương đối của các lát cắt hình ảnh. Theo lược đồ không gian này, khung LLaVA-UHD sử dụng “,” để tách các biểu diễn lát cắt trong một hàng và các hàng khác nhau được tách bằng một “n”.

LLaVA-UDH: Thí nghiệm và Kết quả

Khung LLaVA-UHD được đánh giá chống lại 9 tiêu chuẩn phổ biến, bao gồm các tiêu chuẩn trả lời câu hỏi hình ảnh tổng quát, các tiêu chuẩn trả lời câu hỏi hình ảnh dựa trên ký tự quang học, tiêu chuẩn ảo giác và các tiêu chuẩn toàn diện. Hơn nữa, khung LLaVA-UHD được so sánh với các đường cơ sở mạnh, bao gồm LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 và nhiều hơn.

Hiệu suất của khung LLaVA-UHD trên 9 tiêu chuẩn phổ biến được tóm tắt và so sánh với các tiêu chuẩn phổ biến trong bảng sau.

Dựa trên hiệu suất trên, có thể kết luận rằng khung LLaVA-UHD có thể vượt trội so với các mô hình cơ sở mạnh trên các tiêu chuẩn phổ biến, bao gồm cả các cơ sở mạnh được đào tạo trên một lượng dữ liệu lớn hơn đáng kể, cũng như vượt trội so với các LLM cần nhiều tính toán hơn như Fuyu-8B, Monkey và nhiều hơn. Thứ hai, kết quả cũng chỉ ra rằng khung LLaVA-UHD đạt được kết quả tốt hơn đáng kể so với kiến trúc LLaVA-1.5, và trong khi LLaVA-1.5 hỗ trợ độ phân giải cố định 336×336, khung LLaVA-UHD hỗ trợ hình ảnh có độ phân giải 672×1088 với bất kỳ tỷ lệ khung hình nào và cùng số lượng token hình ảnh.

Suy nghĩ cuối cùng

Trong bài viết này, chúng tôi đã thảo luận về LLaVA-UHD, một phương pháp mới đầu tiên lấy LLaVA-1.5 và GPT-4V làm ví dụ đại diện, và cố gắng暴露 các khiếm khuyết hệ thống trong chiến lược mã hóa hình ảnh của chúng. Khung LLaVA-UHD, một mô hình đa phương thức, là một nỗ lực để giải quyết những thách thức này. Khung LLaVA-UHD có thể nhận thức hình ảnh ở độ phân giải cao cũng như ở bất kỳ tỷ lệ khung hình nào. Khung LLaVA-UHD được xây dựng xung quanh ba thành phần chính. Đầu tiên, một chiến lược mã hóa hình ảnh模块 hóa mà chia hình ảnh độ phân giải gốc thành các lát cắt nhỏ có kích thước biến đổi để tăng hiệu quả và mở rộng mã hóa. Tiếp theo, một mô-đun nén mà nén các token hình ảnh được tạo ra bởi các bộ mã hóa hình ảnh thêm. Cuối cùng, một lược đồ không gian mà tổ chức các token lát cắt cho các mô hình ngôn ngữ lớn. Các thí nghiệm toàn diện cho thấy rằng khung LLaVA-UHD có thể vượt trội so với các mô hình ngôn ngữ lớn hiện đại trên 9 tiêu chuẩn. Hơn nữa, bằng cách sử dụng chỉ 94% tính toán suy luận, khung LLaVA-UHD có thể hỗ trợ hình ảnh với độ phân giải lớn hơn 6 lần, tức là 672×1088.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.