Trí tuệ nhân tạo

SHOW-O: Một Transformer Đơn Unifying Multimodal Understanding và Generation

Đã xuất bản 11 tháng 10, 2024

Đã cập nhật 20 tháng 5, 2026

Kunal Kejriwal

Các tiến bộ đáng kể trong các mô hình ngôn ngữ lớn (LLM) đã truyền cảm hứng cho sự phát triển của các mô hình ngôn ngữ đa phương thức lớn (MLLM). Các nỗ lực MLLM đầu tiên, chẳng hạn như LLaVA, MiniGPT-4 và InstructBLIP, đã chứng minh khả năng hiểu đa phương thức đáng chú ý. Để tích hợp LLM vào các lĩnh vực đa phương thức, các nghiên cứu này đã khám phá việc chiếu các tính năng từ một bộ mã hóa cụ thể cho từng phương thức vào không gian đầu vào của LLM, cho phép hiểu và lý luận đa phương thức trong kiến trúc transformer. Mặc dù có nhiều lựa chọn thiết kế cho MLLM, chẳng hạn như bộ mã hóa thị giác, bộ chuyển đổi sắp xếp tính năng và dữ liệu, nhưng việc đào tạo cho hầu hết các mô hình này tuân theo mô hình tạo tự động, đã được chứng minh là hiệu quả cho việc tạo văn bản trong LLM. Mặc dù những mô hình này chủ yếu tập trung vào nhận thức thị giác và thiếu khả năng tạo ra đầu ra đa phương thức ngoài văn bản.

Các mô hình transformer đã chứng minh sự thành công lớn trong mô hình tự động trong xử lý ngôn ngữ tự nhiên. Được truyền cảm hứng từ tiến bộ như vậy, các nghiên cứu trước đây đã áp dụng trực tiếp cùng một mô hình tự động để học sự phụ thuộc của các pixel hình ảnh cho việc tạo hình ảnh và video. Ví dụ, VideoPoet sử dụng kiến trúc transformer chỉ có bộ giải mã để tổng hợp các video chất lượng cao từ các đầu vào đa phương thức. Gần đây, LlamaGen đã chứng minh rằng kiến trúc mô hình ngôn ngữ lớn như Llama có thể mô hình hóa các token hình ảnh tự động, đạt được hiệu suất tốt trong việc tạo hình ảnh có điều kiện lớp.

Trong bài viết này, chúng tôi sẽ thảo luận về Show-O, một transformer thống nhất tích hợp hiểu đa phương thức và tạo. Không giống như các mô hình tự động hoàn toàn, Show-O thống nhất mô hình tự động và mô hình khuếch tán rời rạc để xử lý đầu vào và đầu ra của các phương thức khác nhau và hỗn hợp. Mô hình thống nhất hỗ trợ linh hoạt một loạt các nhiệm vụ thị giác-ngôn ngữ, bao gồm trả lời câu hỏi thị giác, tạo hình ảnh từ văn bản, tạo và tạo hỗn hợp phương thức. Trên các tiêu chuẩn đánh giá khác nhau, Show-O chứng minh hiệu suất tương đương hoặc vượt trội so với các mô hình riêng lẻ hiện có với số lượng tham số tương đương hoặc lớn hơn, nhấn mạnh tiềm năng của nó như một mô hình nền tảng thế hệ tiếp theo.

… (Content continues)

SHOW-O: Unifying Multimodal Understanding và Generation

Trong những năm gần đây, đã có những tiến bộ đáng kể trong hai trụ cột chính của trí tuệ đa phương thức: hiểu và tạo. Đối với hiểu đa phương thức, Mô hình ngôn ngữ đa phương thức lớn (MLLM) như LLaVA đã chứng minh khả năng đáng chú ý trong các nhiệm vụ thị giác-ngôn ngữ như trả lời câu hỏi thị giác (VQA). Đối với tạo thị giác, các mô hình xác suất khuếch tán làm sạch (DDPM) đã cách mạng hóa các mô hình tạo truyền thống, đạt được hiệu suất chưa từng có trong tạo hình ảnh và video từ văn bản.

Đưa những thành tựu này vào các lĩnh vực riêng lẻ, điều tự nhiên là khám phá tiềm năng của việc kết nối chúng. Các nghiên cứu gần đây đã cố gắng lắp ráp các mô hình chuyên gia từ hai lĩnh vực khác nhau để tạo thành một hệ thống thống nhất có thể xử lý cả hiểu đa phương thức và tạo. Tuy nhiên, các nỗ lực hiện có thường liên quan đến các mô hình riêng biệt cho hiểu và tạo. Ví dụ, NExT-GPT sử dụng một mô hình ngôn ngữ cơ bản cho hiểu đa phương thức nhưng yêu cầu một mô hình khuếch tán được đào tạo trước để tạo hình ảnh. Điều này đặt ra câu hỏi: liệu một transformer đơn có thể xử lý cả hiểu đa phương thức và tạo?

… (Content continues)

SHOW-O: Phương pháp và Kiến trúc

Mục tiêu chính của khuôn khổ Show-O là phát triển một mô hình thống nhất tích hợp mô hình tự động và mô hình khuếch tán cho hiểu đa phương thức và tạo chung. Phát triển một mô hình thống nhất như vậy đặt ra những thách thức đáng kể, với các vấn đề cốt lõi xoay quanh: i) định nghĩa không gian đầu vào/đầu ra của mô hình; ii) thống nhất các loại dữ liệu đầu vào khác nhau từ các phương thức khác nhau; iii) tích hợp cả mô hình tự động và mô hình khuếch tán vào một transformer đơn; và iv) đào tạo hiệu quả một mô hình thống nhất như vậy.

… (Content continues)

Cơ chế Chú ý Omni

Không giống như các nghiên cứu hiện có chỉ mô hình hóa các chuỗi tự động, Show-O giới thiệu một cơ chế chú ý omni, cho phép nó mô hình hóa các tín hiệu khác nhau theo các cách khác nhau. Cơ chế chú ý toàn diện này chuyển đổi giữa chú ý nguyên nhân và chú ý đầy đủ dựa trên định dạng của chuỗi đầu vào. Hình ảnh sau minh họa các ví dụ về cơ chế chú ý omni cho các chuỗi đầu vào khác nhau.

… (Content continues)

SHOW-O: Thử nghiệm và Kết quả

Bảng sau đây trình bày khả năng hiểu đa phương thức của Show-O trên các tiêu chuẩn đánh giá công khai, chẳng hạn như nhiệm vụ chú thích hình ảnh và trả lời câu hỏi thị giác.

… (Content continues)

So sánh Chất lượng

Chúng tôi trình bày các so sánh chất lượng với các mô hình dựa trên khuếch tán, chẳng hạn như SDv1.5, SDXL và mô hình tự động LlamaGen, cùng với các mô hình thống nhất như LWM và SEED-X, như được minh họa trong hình ảnh sau.

… (Content continues)

Tạo và Tạo Hỗn hợp Phương thức

Show-O tự nhiên hỗ trợ tạo và tạo hỗn hợp phương thức mà không cần tinh chỉnh. Hình ảnh sau minh họa một số ví dụ.

… (Content continues)

Lời Kết

Trong bài viết này, chúng tôi đã thảo luận về Show-O, một transformer thống nhất tích hợp hiểu đa phương thức và tạo. Không giống như các mô hình tự động hoàn toàn, Show-O thống nhất mô hình tự động và mô hình khuếch tán rời rạc để xử lý đầu vào và đầu ra của các phương thức khác nhau và hỗn hợp. Mô hình thống nhất hỗ trợ linh hoạt một loạt các nhiệm vụ thị giác-ngôn ngữ, bao gồm trả lời câu hỏi thị giác, tạo hình ảnh từ văn bản, tạo và tạo hỗn hợp phương thức. Trên các tiêu chuẩn đánh giá khác nhau, Show-O chứng minh hiệu suất tương đương hoặc vượt trội so với các mô hình riêng lẻ hiện có với số lượng tham số tương đương hoặc lớn hơn, nhấn mạnh tiềm năng của nó như một mô hình nền tảng thế hệ tiếp theo.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.