Kết nối với chúng tôi

SHOW-O: Một máy biến áp duy nhất kết hợp sự hiểu biết và thế hệ đa phương thức

Trí tuệ nhân tạo

SHOW-O: Một máy biến áp duy nhất kết hợp sự hiểu biết và thế hệ đa phương thức

mm

Những tiến bộ đáng kể trong các mô hình ngôn ngữ lớn (LLM) đã truyền cảm hứng cho sự phát triển của các mô hình ngôn ngữ lớn đa phương thức (MLLM). Những nỗ lực MLLM ban đầu, chẳng hạn như LLaVA, MiniGPT-4 và InstructBLIP, chứng minh khả năng hiểu đa phương thức đáng chú ý. Để tích hợp LLM vào các miền đa phương thức, các nghiên cứu này đã khám phá việc chiếu các tính năng từ bộ mã hóa dành riêng cho phương thức được đào tạo trước, chẳng hạn như CLIP, vào không gian đầu vào của LLM, cho phép hiểu và lý luận đa phương thức trong xương sống của bộ biến đổi. Mặc dù có nhiều lựa chọn thiết kế khác nhau cho MLLM, chẳng hạn như bộ mã hóa thị giác, bộ điều hợp căn chỉnh tính năng và tập dữ liệu, nhưng việc đào tạo cho hầu hết các mô hình này đều tuân thủ theo mô hình tạo tự hồi quy, đã được chứng minh là hiệu quả đối với việc tạo văn bản trong LLM. Mặc dù có khả năng hiểu đa phương thức mạnh mẽ, các mô hình này chủ yếu tập trung vào nhận thức trực quan và không có khả năng tạo ra đầu ra đa phương thức ngoài văn bản.

Các mô hình biến áp đã chứng minh được thành công lớn trong mô hình hồi quy tự động trong xử lý ngôn ngữ tự nhiên. Lấy cảm hứng từ tiến bộ như vậy, các nghiên cứu trước đây đã trực tiếp áp dụng mô hình hồi quy tự động tương tự để tìm hiểu sự phụ thuộc của các điểm ảnh hình ảnh để tạo hình ảnh và video. Ví dụ, VideoPoet sử dụng kiến ​​trúc biến áp chỉ có bộ giải mã để tổng hợp các video chất lượng cao từ các đầu vào đa phương thức. Gần đây hơn, LlamaGen đã chỉ ra rằng một kiến ​​trúc mô hình ngôn ngữ lớn như Llama có thể mô hình hóa hồi quy tự động các mã thông báo hình ảnh, đạt được hiệu suất tốt trong việc tạo hình ảnh có điều kiện theo lớp.

Trong bài viết này, chúng ta sẽ thảo luận về Show-O, một bộ chuyển đổi hợp nhất tích hợp hiểu biết và tạo đa phương thức. Không giống như các mô hình hồi quy hoàn toàn, Show-O hợp nhất mô hình khuếch tán hồi quy tự động và rời rạc để xử lý thích ứng các đầu vào và đầu ra của nhiều phương thức khác nhau và hỗn hợp. Mô hình hợp nhất hỗ trợ linh hoạt nhiều tác vụ ngôn ngữ thị giác, bao gồm trả lời câu hỏi trực quan, tạo văn bản thành hình ảnh, tô màu/ngoại suy theo hướng dẫn văn bản và tạo phương thức hỗn hợp. Trên nhiều chuẩn mực khác nhau, Show-O chứng minh hiệu suất tương đương hoặc vượt trội so với các mô hình riêng lẻ hiện có với số lượng tham số tương đương hoặc lớn hơn, làm nổi bật tiềm năng của nó như một mô hình nền tảng thế hệ tiếp theo.

Trong khuôn khổ này, mô hình được giao nhiệm vụ dự đoán nhiễu Gaussian được thêm vào các biểu diễn tiềm ẩn liên tục. Ngược lại, các mô hình khác như D3PM, Mask-predict, ARDM và MaskGIT sử dụng quy trình làm hỏng rời rạc thay thế cho khuếch tán Gaussian. Cụ thể, một hình ảnh được biểu diễn dưới dạng một chuỗi các mã thông báo rời rạc bằng cách sử dụng các bộ phân tích mã thông báo hình ảnh, với mỗi mã thông báo được liên kết với một nhãn phân loại. Phân phối theo từng mã thông báo được chuyển đổi thành phân phối đồng đều thông qua quy trình lấy mẫu ngẫu nhiên. Trong quá trình đào tạo, một phần của các mã thông báo này được che giấu ngẫu nhiên và mô hình được đào tạo để dự đoán các giá trị ban đầu của các mã thông báo được che giấu. Trong công trình này, Show-O áp dụng mô hình khuếch tán rời rạc để tạo hình ảnh.

SHOW-O: Thống nhất sự hiểu biết và thế hệ đa phương thức

Trong vài năm qua, những tiến bộ đáng kể đã xuất hiện trong hai trụ cột chính của trí thông minh đa phương thức: hiểu biết và tạo ra. Đối với hiểu biết đa phương thức, Mô hình ngôn ngữ lớn đa phương thức (MLLM)) như LLaVA đã chứng minh khả năng đặc biệt trong các nhiệm vụ ngôn ngữ thị giác như trả lời câu hỏi trực quan (VQA). Đối với việc tạo hình ảnh, các mô hình xác suất khuếch tán khử nhiễu (DDPM) đã cách mạng hóa các mô hình tạo hình truyền thống, đạt được hiệu suất chưa từng có trong việc tạo văn bản thành hình ảnh/video.

Với những thành tựu này trong các lĩnh vực riêng lẻ, việc khám phá tiềm năng kết nối chúng là điều tự nhiên. Các công trình gần đây đã cố gắng lắp ráp các mô hình chuyên gia từ hai miền khác nhau này để tạo thành một hệ thống thống nhất có thể xử lý cả hiểu biết đa phương thức và tạo ra. Tuy nhiên, các nỗ lực hiện tại thường liên quan đến các mô hình riêng biệt để hiểu biết và tạo ra. Ví dụ, NExT-GPT sử dụng một mô hình ngôn ngữ cơ sở để hiểu biết đa phương thức nhưng yêu cầu một mô hình khuếch tán được đào tạo trước bổ sung để tạo ra hình ảnh. Điều này đặt ra câu hỏi: liệu một bộ chuyển đổi duy nhất có thể xử lý cả hiểu biết đa phương thức và tạo ra không?

Gần đây, Chameleon đã chứng minh rằng điều này là khả thi. Cụ thể, Chameleon cho phép hợp nhất các phương thức khác nhau để tạo ra cả mã thông báo văn bản và hình ảnh thông qua mô hình hồi quy tự động. Mặc dù mô hình hóa mã thông báo văn bản theo cách hồi quy tự động có ý nghĩa, nhưng vẫn chưa rõ liệu mô hình hóa các mảng hình ảnh hay pixel theo cùng một cách có tối ưu hay không. Một nút thắt chính của việc dự đoán hồi quy tự động một hình ảnh là số lượng lớn các bước lấy mẫu cần thiết, đặc biệt là khi xử lý hình ảnh có độ phân giải cao hơn. Các mô hình khuếch tán liên tục đã cho thấy hiệu suất vượt trội trong việc tạo hình ảnh so với các mô hình hồi quy tự động.

Điều này dẫn chúng ta đến việc khám phá liệu một bộ biến đổi đơn lẻ có thể tích hợp cả mô hình hồi quy tự động và mô hình khuếch tán hay không. Show-O hình dung một mô hình mới trong đó văn bản được biểu diễn dưới dạng các mã thông báo rời rạc và được mô hình hóa theo cách hồi quy tự động, trong khi các điểm ảnh hình ảnh liên tục được mô hình hóa bằng cách sử dụng khuếch tán khử nhiễu. Tuy nhiên, việc tích hợp hai kỹ thuật riêng biệt này vào một mạng duy nhất là không hề đơn giản do sự khác biệt giữa các mã thông báo văn bản rời rạc và các biểu diễn hình ảnh liên tục. Ngoài ra, các mô hình khuếch tán thường dựa trên hai mô hình riêng biệt: một bộ mã hóa văn bản và một mạng khử nhiễu.

Để giải quyết vấn đề này, Show-O giới thiệu một mô hình thống nhất mới có khả năng xử lý cả nhiệm vụ hiểu và tạo đa phương thức bằng cách sử dụng mô hình hóa tự hồi quy và khuếch tán hỗn hợp. Show-O được xây dựng dựa trên LLM được đào tạo trước và tận dụng khả năng mô hình hóa tự hồi quy của nó để suy luận dựa trên văn bản. Lấy cảm hứng từ các tác phẩm khác, Show-O sử dụng khuếch tán khử nhiễu rời rạc để mô hình hóa các mã thông báo hình ảnh thay vì các biểu diễn liên tục. Hơn nữa, Show-O vốn mã hóa thông tin có điều kiện văn bản, loại bỏ nhu cầu về các bộ mã hóa văn bản bổ sung. Bằng cách sử dụng các bộ phân tích văn bản và hình ảnh, Show-O có thể xử lý nhiều dữ liệu và nhiệm vụ đầu vào khác nhau, cung cấp câu trả lời tự hồi quy cho các nhiệm vụ ngôn ngữ thị giác và tạo hình ảnh bằng cách sử dụng khuếch tán khử nhiễu rời rạc.

Show-O cho thấy hiệu suất tương đương và trong một số trường hợp tốt hơn so với các mô hình riêng lẻ có số lượng tham số tương đương hoặc lớn hơn trên nhiều chuẩn mực khác nhau. Không giống như việc tạo ảnh tự hồi quy, khung Show-O yêu cầu ít hơn khoảng 20 lần các bước lấy mẫu, khiến nó nhanh hơn về bản chất. Ngoài ra, khung Show-O hỗ trợ các ứng dụng hạ nguồn như tô màu theo hướng dẫn văn bản và ngoại suy mà không cần tinh chỉnh, như được minh họa trong hình ảnh sau. 

Show-O cũng có tiềm năng tạo ra nhiều phương thức hỗn hợp, chẳng hạn như tạo khung hình video xen kẽ với mô tả văn bản, cho thấy triển vọng tạo ra video dạng dài. Hơn nữa, khuôn khổ Show-O nghiên cứu tác động của các biểu diễn hình ảnh rời rạc và liên tục lên sự hiểu biết đa phương thức, cung cấp thông tin chi tiết cho các thiết kế mô hình thống nhất trong tương lai.

Hình sau đây trình bày sự so sánh các đặc điểm mô hình giữa khung Show-O và các phương pháp hiện có trên nhiều miền khác nhau. Show-O nổi bật là một mô hình thống nhất tích hợp các kỹ thuật tiên tiến cho cả hiểu biết đa phương thức và tạo ra. 

Tóm lại, những đóng góp chính của bài báo này như sau:

  • Show-O là một mô hình thống nhất tích hợp sự hiểu biết đa phương thức và tạo ra dữ liệu bằng một bộ chuyển đổi duy nhất.
  • Show-O hợp nhất mô hình khuếch tán tự hồi quy và rời rạc trong một bộ chuyển đổi, xử lý cả văn bản và hình ảnh một cách hiệu quả.
  • Khung Show-O vượt trội hơn hoặc phù hợp với các mô hình cơ sở riêng lẻ với các thông số tương đương hoặc lớn hơn trên các chuẩn mực hiểu biết đa phương thức và thế hệ.
  • Show-O hỗ trợ các ứng dụng hạ lưu giống như việc tô màu dựa trên văn bản và ngoại suy mà không cần tinh chỉnh và thể hiện tiềm năng tạo ra nhiều phương thức hỗn hợp.
  • Show-O khám phá tác động của các loại biểu diễn khác nhau, cung cấp những hiểu biết có giá trị để cải thiện sự hiểu biết đa phương thức trong các mô hình thống nhất.

Trong những năm gần đây, ngày càng có nhiều nghiên cứu tập trung vào các mô hình ngôn ngữ đa phương thức thống nhất có khả năng hiểu và tạo ra hình ảnh. Một số nỗ lực sử dụng các biểu diễn liên tục xen kẽ với các mã thông báo văn bản để mô hình hóa hồi quy tự động nhằm tạo ra hình ảnh. SEED-X đề xuất một hệ thống nền tảng thống nhất và linh hoạt có khả năng xử lý cả các tác vụ hiểu và tạo ra đa phương thức. Trong phương pháp này, các biểu diễn hình ảnh liên tục từ bộ mã hóa CLIP ViT được kết hợp với các mã thông báo văn bản và đưa vào một mô hình ngôn ngữ lớn (LLM) để thực hiện dự đoán từ tiếp theo và hồi quy biểu diễn hình ảnh. Chameleon giới thiệu một họ các mô hình hỗn hợp dựa trên mã thông báo có khả năng hiểu và tạo ra hình ảnh. Phương pháp này biểu diễn tất cả các phương thức dưới dạng các mã thông báo rời rạc, sử dụng kiến ​​trúc dựa trên bộ chuyển đổi thống nhất và đào tạo mô hình từ đầu theo cách đầu cuối. Để so sánh, Show-O cũng áp dụng các mã thông báo rời rạc để biểu diễn tất cả các phương thức nhưng sử dụng quy trình khuếch tán rời rạc thay vì mô hình hóa hồi quy tự động để tạo ra hình ảnh.

SHOW-O: Phương pháp và Kiến trúc

Mục tiêu chính đằng sau khuôn khổ Show-O là phát triển một mô hình thống nhất tích hợp mô hình hồi quy tự động và mô hình khuếch tán để hiểu và tạo ra đa phương thức chung. Việc phát triển một mô hình thống nhất như vậy đặt ra những thách thức đáng kể, với các vấn đề cốt lõi xoay quanh: i) xác định không gian đầu vào/đầu ra của mô hình; ii) thống nhất các loại dữ liệu đầu vào khác nhau từ các phương thức khác nhau; iii) tích hợp cả mô hình hồi quy tự động và mô hình khuếch tán vào một bộ chuyển đổi duy nhất; và iv) đào tạo hiệu quả một mô hình thống nhất như vậy.

Show-O giải quyết những thách thức này bằng các giải pháp sau:

  • Show-O xây dựng không gian đầu vào/đầu ra bằng cách phân chia dữ liệu văn bản và hình ảnh thành các mã thông báo rời rạc.
  • Show-O giới thiệu kiến ​​trúc mặc định và chiến lược nhắc nhở thống nhất để cấu trúc dữ liệu đầu vào và phương thức.
  • Show-O trình bày cách kết hợp cả mô hình hồi quy tự động và mô hình khuếch tán trong một bộ biến đổi duy nhất.
  • Show-O trình bày quy trình đào tạo ba giai đoạn để đào tạo mô hình thống nhất một cách hiệu quả.

Mã thông báo

Với việc Show-O được đề xuất được xây dựng dựa trên LLM được đào tạo trước, việc thực hiện học tập thống nhất trong không gian rời rạc là điều tự nhiên. Bằng cách duy trì một vốn từ vựng thống nhất bao gồm các mã thông báo văn bản và hình ảnh rời rạc, Show-O được giao cùng một mục tiêu học tập: dự đoán các mã thông báo rời rạc.

Mã hóa văn bản

Show-O dựa trên LLM được đào tạo trước và sử dụng cùng một trình phân tích cú pháp để phân tích dữ liệu văn bản mà không cần bất kỳ sửa đổi nào.

Mã hóa hình ảnh

Tiếp theo MAGVIT-v2, Show-O đào tạo một bộ lượng tử hóa không cần tra cứu bằng cách sử dụng khoảng 35M dữ liệu hình ảnh. Bộ lượng tử hóa này duy trì một sổ mã có kích thước 8,192 và mã hóa hình ảnh có độ phân giải 256×256 thành các mã thông báo rời rạc 16×16. MAGVIT-v2 được chọn vì dễ tinh chỉnh, khiến nó phù hợp làm bộ phân tích mã hóa video có khả năng nén theo thời gian, một khía cạnh mà Show-O có kế hoạch khám phá trong tương lai. Một cách tiếp cận thay thế là sử dụng các bộ phân tích mã hóa khác nhau để hiểu và tạo ra tương ứng. Lấy cảm hứng từ các nghiên cứu hiện có, Show-O cũng trích xuất các biểu diễn hình ảnh liên tục từ bộ mã hóa MAGVIT-v2 và CLIP-ViT được đào tạo trước để khám phá những cải tiến trong khả năng hiểu đa phương thức. Trong các phần sau, Show-O mặc định sử dụng các mã thông báo hình ảnh rời rạc làm đầu vào cho cả việc hiểu và tạo đa phương thức. Để đơn giản, các phần về phương pháp luận sẽ chỉ trình bày chi tiết về Show-O mặc định.

Kiến trúc

Show-O kế thừa kiến ​​trúc của LLM hiện có không có bất kỳ sửa đổi kiến ​​trúc nào, ngoại trừ việc thêm một hoạt động QK-Norm vào mỗi lớp chú ý. Show-O được khởi tạo với trọng số của LLM được đào tạo trước và mở rộng kích thước của lớp nhúng bằng cách kết hợp 8,192 nhúng có thể học được mới cho các mã thông báo hình ảnh rời rạc. Không giống như các mô hình khuếch tán tiên tiến yêu cầu bộ mã hóa văn bản bổ sung, Show-O vốn mã hóa thông tin có điều kiện văn bản để tạo văn bản thành hình ảnh.

Nhắc nhở thống nhất 

Để thực hiện học tập thống nhất về hiểu biết và tạo đa phương thức, Show-O sử dụng chiến lược nhắc nhở thống nhất để định dạng nhiều loại dữ liệu đầu vào khác nhau. Cho một cặp hình ảnh-văn bản (x, y), trước tiên nó được mã hóa thành M mã thông báo hình ảnh và N mã thông báo văn bản theo thứ tự bởi các bộ mã hóa hình ảnh và văn bản. Sau đó, các mã thông báo được hình thành thành một chuỗi đầu vào theo loại tác vụ, như minh họa trong hình sau. 

Bằng cách sử dụng thiết kế nhắc nhở này, Show-O có thể mã hóa hiệu quả nhiều dữ liệu đầu vào khác nhau để hiểu đa phương thức, tạo văn bản thành hình ảnh và tạo hỗn hợp phương thức dưới dạng dữ liệu tuần tự. Thiết lập này cho phép học tập hợp nhất hoạt động liền mạch trên các chuỗi cho các nhiệm vụ khác nhau này. Sau khi được đào tạo, Show-O có thể được nhắc nhở để xử lý nhiều nhiệm vụ ngôn ngữ thị giác, bao gồm trả lời câu hỏi trực quan và tạo văn bản thành hình ảnh.

Cơ chế Omni-Attention 

Không giống như các tác phẩm hiện có chỉ mô hình hóa các chuỗi tự hồi quy, Show-O giới thiệu một cơ chế chú ý toàn diện, cho phép mô hình hóa nhiều loại tín hiệu theo những cách riêng biệt. Cơ chế chú ý toàn diện này chuyển đổi thích ứng giữa sự chú ý nhân quả và sự chú ý đầy đủ dựa trên định dạng của chuỗi đầu vào. Hình sau minh họa các ví dụ về sự chú ý toàn diện cho các chuỗi đầu vào khác nhau.

Cụ thể, Show-O xử lý các mã thông báo văn bản trong chuỗi thông qua sự chú ý nhân quả, trong khi các mã thông báo hình ảnh được xử lý bằng sự chú ý đầy đủ, cho phép mỗi mã thông báo tương tác toàn diện với tất cả các mã thông báo khác. Trong hiểu biết đa phương thức, các mã thông báo văn bản có thể chú ý đến tất cả các mã thông báo hình ảnh trước đó, trong khi trong quá trình tạo văn bản thành hình ảnh, các mã thông báo hình ảnh có thể tương tác với tất cả các mã thông báo văn bản trước đó. Omni-attention giữ lại kiến ​​thức suy luận văn bản từ LLM được đào tạo trước và tăng cường hiệu quả của quá trình tạo hình ảnh bằng cách giảm các bước lấy mẫu. Hơn nữa, nó hỗ trợ nhiều ứng dụng hạ nguồn khác nhau, chẳng hạn như tô màu và ngoại suy, mà không cần phải tinh chỉnh. Khi chỉ cung cấp các mã thông báo văn bản, cơ chế mặc định là sự chú ý nhân quả.

SHOW-O: Thí nghiệm và Kết quả

Bảng sau đây trình bày khả năng hiểu đa phương thức của Show-O trên các tiêu chuẩn công khai, chẳng hạn như chú thích hình ảnh và nhiệm vụ trả lời câu hỏi trực quan. 

Phiên bản hiện tại của Show-O được xây dựng dựa trên Phi-1.5, và do đó, phiên bản chỉ hiểu của Show-O, LLaVA-v1.5-Phi-1.5, đóng vai trò là mô hình cơ sở trực tiếp. Show-O thể hiện hiệu suất tương đương trong tất cả các phép đo đánh giá so với mô hình cơ sở LLaVA-v1.5-Phi-1.5, vốn chỉ dành riêng cho hiểu biết đa phương thức. Điều này chứng minh tiềm năng to lớn của khung Show-O trong việc thống nhất hiểu biết và tạo ra đa phương thức trong một bộ chuyển đổi duy nhất. Khi so sánh với các mô hình chỉ hiểu biết như InstructBLIP, Qwen-VL-Chat và mPLUG-Owl2, Show-O, mặc dù có kích thước mô hình nhỏ hơn nhiều, vẫn đạt được hiệu suất cạnh tranh trên các chuẩn POPE, MME, Flickr30k và VQAv2, và hoạt động tốt hơn trên chuẩn GQA. Khi so sánh với các mô hình thống nhất có nhiều tham số hơn đáng kể, chẳng hạn như NExT-GPT-13B và Chameleon-34B, Show-O cũng đạt hiệu suất mạnh mẽ trên chuẩn Flickr30k và hoạt động tốt hơn nhiều trên chuẩn VQAv2.

Với những kết quả đầy hứa hẹn này, Show-O được hình dung là một mô hình nền tảng thế hệ tiếp theo tiềm năng để thống nhất sự hiểu biết và thế hệ. Những kết quả này cũng chứng minh tiềm năng mở rộng Show-O để đạt được hiệu suất tiên tiến.

So sánh định tính

Chúng tôi trình bày các so sánh định tính với các mô hình dựa trên khuếch tán, chẳng hạn như SDv1.5, SDXL và mô hình dựa trên hồi quy tự động LlamaGen, cùng với các mô hình thống nhất như LWM và SEED-X, như minh họa trong hình sau. 

Show-O chứng minh khả năng tạo ra hình ảnh thực tế với nội dung nhất quán được mô tả trong cả lời nhắc văn bản ngắn và dài. So với SDv1.5 và LlamaGen, Show-O thể hiện chất lượng hình ảnh tốt hơn và căn chỉnh hình ảnh-văn bản mạnh hơn. Ví dụ, ở cột thứ hai, cả SDv1.5 và LlamaGen đều không hiểu đầy đủ lời nhắc văn bản và bỏ sót các thuộc tính như "hoàng hôn" và "mái vòm xanh" trong hình ảnh được tạo ra. So với SDXL, Show-O cung cấp chất lượng hình ảnh và căn chỉnh tương đương, như được thấy trong các ví dụ như "cuộc đua xe rally" và "độ tương phản tuyệt đẹp với hoàng hôn rực rỡ". 

Văn bản hướng dẫn Inpainting và Extrapolation 

Show-O hỗ trợ tự nhiên việc tô màu và ngoại suy dựa trên văn bản mà không cần bất kỳ tinh chỉnh nào. Hình sau minh họa một số ví dụ. 

Ở đầu hình, với một hình ảnh đầu vào và một mặt nạ inpainting, Show-O có thể biến đổi một toa xe điện màu đỏ thành một chiếc xe thể thao màu xanh với những đường cong bóng bẩy và cửa sổ màu dựa trên lời nhắc văn bản do người dùng cung cấp. Show-O cũng có thể ngoại suy hình ảnh gốc theo chiều ngang hoặc chiều dọc dựa trên lời nhắc văn bản đã cho. Ví dụ, ở hàng thứ hai, Show-O ngoại suy một hình ảnh bằng cách thêm các đối tượng mới, như "hoa dại màu đỏ". Các pixel trong cả vùng inpainting và vùng ngoại suy vẫn nhất quán với hình ảnh gốc. Những ví dụ này chứng minh rõ ràng những lợi thế vốn có của Show-O so với các mô hình hồi quy tự động cho các ứng dụng hạ lưu.

.

Trong bài viết này, chúng tôi đã nói về Show-O, một bộ chuyển đổi hợp nhất tích hợp hiểu biết và tạo đa phương thức. Không giống như các mô hình hồi quy hoàn toàn, Show-O hợp nhất mô hình khuếch tán tự hồi quy và rời rạc để xử lý thích ứng các đầu vào và đầu ra của nhiều phương thức khác nhau và hỗn hợp. Mô hình hợp nhất hỗ trợ linh hoạt nhiều tác vụ ngôn ngữ thị giác, bao gồm trả lời câu hỏi trực quan, tạo văn bản thành hình ảnh, tô màu/ngoại suy theo hướng dẫn văn bản và tạo phương thức hỗn hợp. Trên nhiều chuẩn mực khác nhau, Show-O chứng minh hiệu suất tương đương hoặc vượt trội so với các mô hình riêng lẻ hiện có với số lượng tham số tương đương hoặc lớn hơn, làm nổi bật tiềm năng của nó như một mô hình nền tảng thế hệ tiếp theo. Trong khuôn khổ này, mô hình được giao nhiệm vụ dự đoán nhiễu Gaussian được thêm vào các biểu diễn tiềm ẩn liên tục. Ngược lại, các mô hình khác như D3PM, Mask-predict, ARDM và MaskGIT sử dụng quy trình làm hỏng rời rạc thay thế cho khuếch tán Gaussian. Show-O là mô hình đầu tiên hợp nhất mô hình khuếch tán tự hồi quy và rời rạc, cho phép nó xử lý các phương thức khác nhau theo những cách riêng biệt. Kết quả thử nghiệm mở rộng chứng minh rằng Show-O có thể so sánh được hoặc thậm chí tốt hơn các mô hình chuyên gia riêng lẻ trên nhiều nhiệm vụ ngôn ngữ thị giác. Điều này làm nổi bật tiềm năng của nó như một mô hình nền tảng thế hệ tiếp theo.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.