Trí tuệ nhân tạo

Hướng dẫn trực quan Tuning cho hiểu biết cấp độ pixel với Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Với sự nâng cao gần đây của các phương pháp điều chỉnh hướng dẫn trực quan, các Mô hình Ngôn ngữ Lớn Đa phương tiện (MLLMs) đã chứng minh khả năng tầm nhìn-ngôn ngữ chung ấn tượng. Những khả năng này làm cho chúng trở thành các khối xây dựng chính cho các trợ lý trực quan chung hiện đại. Các mô hình gần đây, bao gồm MiniGPT-4, LLaVA, InstructBLIP và các mô hình khác, thể hiện khả năng lý luận và tuân theo hướng dẫn trực quan ấn tượng. Mặc dù hầu hết chúng dựa trên cặp hình ảnh-văn bản để căn chỉnh tầm nhìn-ngôn ngữ ở cấp độ hình ảnh, nhưng chúng hoạt động tốt trong lĩnh vực này. Tuy nhiên, sự phụ thuộc của chúng vào hiểu biết cấp độ hộp và cấp độ hình ảnh là lý do chính khiến MLLMs không thể复制 hiệu suất của chúng trên các nhiệm vụ căn chỉnh ngôn ngữ-tầm nhìn mịn ở cấp độ pixel. Ngoài ra, sự hạn chế về sẵn có của dữ liệu hướng dẫn dựa trên mặt nạ để đào tạo đặt ra thách thức trong việc nâng cao hơn nữa MLLMs.

Osprey là một phương pháp đào tạo hướng dẫn mặt nạ-văn bản với mục tiêu chính là mở rộng MLLMs. Nó kết hợp các vùng mặt nạ mịn vào hướng dẫn ngôn ngữ để đạt được hiểu biết trực quan-ngôn ngữ ở cấp độ pixel. Để thực hiện điều này, khuôn khổ Osprey tạo ra một tập dữ liệu vùng-mặt nạ với hơn 700 nghìn mẫu. Nó tiêm đại diện cấp độ pixel vào Mô hình Ngôn ngữ Lớn (LLM) để thiết kế một mô hình tầm nhìn-ngôn ngữ. Đặc biệt, khuôn khổ Osprey áp dụng một mô hình CLIP convolutional làm bộ mã hóa tầm nhìn và tích hợp một bộ trích xuất trực quan nhận thức mặt nạ vào kiến trúc của nó. Điều này cho phép trích xuất chính xác các tính năng trực quan của mặt nạ từ đầu vào độ phân giải cao.

Trong bài viết này, chúng tôi sẽ thảo luận về khuôn khổ Osprey và đi sâu vào kiến trúc của nó. Chúng tôi cũng sẽ khám phá tập dữ liệu vùng-văn bản được tạo ra với hơn 700 nghìn mẫu và so sánh hiệu suất của nó trong các nhiệm vụ hiểu biết vùng khác nhau. Vì vậy, hãy bắt đầu.

Osprey: Hiểu biết cấp độ pixel với điều chỉnh hướng dẫn trực quan

Các Mô hình Ngôn ngữ Lớn Đa phương tiện như MiniGPT-4, Otter, Qwen-LV, InstructBLIP và các mô hình khác là những người dẫn đầu trong việc phát triển các trợ lý trực quan chung, và chúng được biết đến với khả năng đa phương tiện và tầm nhìn tạo ra ấn tượng. Tuy nhiên, các Mô hình Ngôn ngữ Lớn Đa phương tiện gặp phải một thách thức lớn vì chúng cung cấp kết quả không hài lòng trên các nhiệm vụ hiểu biết hình ảnh mịn như chú thích, phân loại vùng và lý luận. Một lý do chính cho hiệu suất dưới mức trung bình trên các nhiệm vụ hiểu biết hình ảnh mịn là thiếu căn chỉnh ở cấp độ vùng. Các MLLMs gần đây như GPT4RoI, Shikra và các mô hình khác nhằm mục đích cho phép hiểu biết cấp độ vùng trong các mô hình tầm nhìn-ngôn ngữ bằng cách xử lý các vùng được chỉ định bởi hộp giới hạn và tận dụng điều chỉnh hướng dẫn trực quan với các tính năng không gian ở cấp độ đối tượng.

… (the rest of the translation remains the same, following the exact structure and format as the original)