Connect with us

LLaVA-UHD: một LMM Nhận thức Bất kỳ Tỷ lệ Khung hình và Hình ảnh Độ phân giải Cao

Trí tuệ nhân tạo

LLaVA-UHD: một LMM Nhận thức Bất kỳ Tỷ lệ Khung hình và Hình ảnh Độ phân giải Cao

mm
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Sự tiến bộ và phát triển gần đây của Mô hình Ngôn ngữ Lớn đã trải qua sự tăng trưởng đáng kể trong khả năng lý luận, hiểu biết và tương tác ngôn ngữ – hình ảnh. Các khuôn khổ hiện đại đạt được điều này bằng cách chiếu tín hiệu hình ảnh vào LLM hoặc Mô hình Ngôn ngữ Lớn để cho phép khả năng nhận thức thế giới trực quan của chúng, một loạt các kịch bản mà các chiến lược mã hóa hình ảnh đóng vai trò quan trọng. Tuy nhiên, hình ảnh thế giới thực không chỉ chứa một loạt các kịch bản, mà còn thay đổi đáng kể về độ phân giải và tỷ lệ khung hình, gây ra những thách thức đáng kể cho LLM trên các lĩnh vực và nhiệm vụ khác nhau. Để đối phó với sự thay đổi đáng kể do hình ảnh thế giới thực gây ra, các mô hình ngôn ngữ lớn hiện đại nhận thức hình ảnh ở độ phân giải thấp, tức là 224×224, và tỷ lệ khung hình cố định, tức là 1: 1. Mặc dù việc thỏa hiệp để gắn với độ phân giải thấp và tỷ lệ khung hình cố định làm tăng khả năng tổng quát hóa của LLM trong các ứng dụng thế giới thực, nhưng nó thường làm mờ nội dung của hình ảnh đáng kể đồng thời dẫn đến biến dạng hình dạng nghiêm trọng. Sự thỏa hiệp này ảnh hưởng đáng kể đến khả năng của các mô hình đa phương thức lớn hoặc LMM, đặc biệt là những mô hình được tối ưu hóa cho các nhiệm vụ tinh粒, bao gồm nhận dạng ký tự quang học và hiểu biết đối tượng nhỏ. Hơn nữa, vì độ phân giải và tỷ lệ khung hình được xác định trước, các mô hình chỉ có thể đưa ra những dự đoán tốt nhất về hình ảnh mờ, dẫn đến ảo giác mô hình, một tình huống mà mô hình tạo ra các phản hồi văn bản không dựa trên thực tế trong hình ảnh.

Trong bài viết này, chúng tôi sẽ thảo luận về LLaVA-UHD, một phương pháp mới đầu tiên lấy các khuôn khổ LLaVA-1.5 và GPT-4V làm ví dụ đại diện, và cố gắng暴露 các khiếm khuyết hệ thống trong chiến lược mã hóa hình ảnh của chúng. Khuôn khổ LLaVA-UHD, một mô hình đa phương thức, là một nỗ lực để giải quyết các thách thức này. Khuôn khổ LLaVA-UHD có thể nhận thức hình ảnh ở độ phân giải cao cũng như ở bất kỳ tỷ lệ khung hình nào. Khuôn khổ LLaVA-UHD được xây dựng xung quanh ba thành phần chính. Đầu tiên, một chiến lược mô-đun hóa hình ảnh chia hình ảnh độ phân giải gốc thành các lát cắt nhỏ có kích thước biến đổi để tăng hiệu quả và mở rộng mã hóa. Tiếp theo, một mô-đun nén condense các token hình ảnh được tạo ra bởi các bộ mã hóa hình ảnh. Cuối cùng, một lược đồ không gian tổ chức các token lát cắt cho các mô hình ngôn ngữ lớn. Các thí nghiệm toàn diện chỉ ra rằng khuôn khổ LLaVA-UHD có thể vượt trội so với các mô hình ngôn ngữ lớn hiện tại trên 9 điểm chuẩn. Hơn nữa, bằng cách sử dụng chỉ 94% tính toán suy luận, khuôn khổ LLaVA-UHD có thể hỗ trợ hình ảnh với độ phân giải lớn hơn 6 lần, tức là 672×1088.

LLaVA-UHD : Nhận thức Hiệu quả Hình ảnh ở Bất kỳ Tỷ lệ Khung hình và Độ phân giải Cao

… (rest of the translation remains the same, following the exact structure and format as the original)

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.