Trí tuệ nhân tạo

Mô hình Tự hồi quy Hình ảnh: Tăng tốc Tạo hình ảnh qua Dự đoán Tiếp theo

Đã xuất bản 10 tháng 4, 2024

Đã cập nhật 22 tháng 5, 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Sự ra đời của các mô hình GPT, cùng với các mô hình ngôn ngữ lớn tự hồi quy hoặc AR, đã mở ra một kỷ nguyên mới trong lĩnh vực học máy và trí tuệ nhân tạo. Các mô hình GPT và tự hồi quy thường thể hiện trí tuệ tổng quát và tính linh hoạt được coi là một bước tiến quan trọng hướng tới trí tuệ nhân tạo tổng quát hoặc AGI, mặc dù vẫn còn một số vấn đề như ảo giác. Tuy nhiên, vấn đề khó hiểu với các mô hình lớn này là chiến lược học tự giám sát cho phép mô hình dự đoán token tiếp theo trong một chuỗi, một chiến lược đơn giản nhưng hiệu quả. Các công việc gần đây đã chứng minh sự thành công của các mô hình tự hồi quy lớn, nhấn mạnh tính tổng quát và khả năng mở rộng của chúng. Khả năng mở rộng là một ví dụ điển hình về các luật tỷ lệ hiện có, cho phép các nhà nghiên cứu dự đoán hiệu suất của mô hình lớn từ hiệu suất của các mô hình nhỏ hơn, dẫn đến phân bổ tài nguyên tốt hơn. Mặt khác, tính tổng quát thường được chứng minh bằng các chiến lược học như học không giám sát, học một lần và học vài lần, nhấn mạnh khả năng của các mô hình không được giám sát nhưng đã được đào tạo để thích nghi với các nhiệm vụ đa dạng và chưa được nhìn thấy. Cùng nhau, tính tổng quát và khả năng mở rộng tiết lộ tiềm năng của các mô hình tự hồi quy để học từ một lượng lớn dữ liệu không được dán nhãn.

Dựa trên điều này, trong bài viết này, chúng ta sẽ thảo luận về Khung tự hồi quy Hình ảnh hoặc Khung VAR, một mẫu mới tái định nghĩa việc học tự hồi quy trên hình ảnh như dự đoán “tiếp theo-chất lượng” hoặc “tiếp theo-quy mô”. Mặc dù đơn giản, nhưng cách tiếp cận này hiệu quả và cho phép các mô hình tự hồi quy chuyển đổi học tốt hơn và tăng cường tính tổng quát. Hơn nữa, các mô hình tự hồi quy hình ảnh VAR cho phép các mô hình tự hồi quy kiểu GPT vượt qua các mô hình khuếch tán trong việc tạo hình ảnh lần đầu tiên. Các thí nghiệm cũng chỉ ra rằng Khung VAR cải thiện đáng kể các baseline tự hồi quy và vượt qua Khung chuyển đổi khuếch tán hoặc Khung DiT trong nhiều chiều như hiệu quả dữ liệu, chất lượng hình ảnh, khả năng mở rộng và tốc độ suy luận. Hơn nữa, việc tăng quy mô các mô hình tự hồi quy hình ảnh VAR cho thấy các luật tỷ lệ theo luật lực tương tự như những luật được quan sát với các mô hình ngôn ngữ lớn và cũng hiển thị khả năng tổng quát hóa nhiệm vụ không có giám sát trong các nhiệm vụ hạ lưu bao gồm chỉnh sửa, tô màu và sơn màu.

Bài viết này nhằm mục đích bao phủ Khung tự hồi quy hình ảnh một cách sâu sắc, và chúng ta sẽ khám phá cơ chế, phương pháp luận, kiến trúc của khung này cùng với so sánh với các khung hiện đại. Chúng ta cũng sẽ thảo luận về cách Khung tự hồi quy hình ảnh thể hiện hai thuộc tính quan trọng của LLM: Luật tỷ lệ và tổng quát hóa nhiệm vụ không có giám sát. Vậy hãy bắt đầu.

Mô hình Tự hồi quy Hình ảnh: Tăng tốc Tạo hình ảnh

Một mẫu phổ biến trong các mô hình ngôn ngữ lớn gần đây là việc thực hiện một chiến lược học tự giám sát, một cách tiếp cận đơn giản nhưng hiệu quả dự đoán token tiếp theo trong chuỗi. Nhờ cách tiếp cận này, các mô hình tự hồi quy và ngôn ngữ lớn ngày nay đã chứng minh khả năng mở rộng và tính tổng quát đáng kể, những thuộc tính tiết lộ tiềm năng của các mô hình tự hồi quy để học từ một lượng lớn dữ liệu không được dán nhãn, do đó tóm tắt bản chất của Trí tuệ nhân tạo tổng quát. Hơn nữa, các nhà nghiên cứu trong lĩnh vực thị giác máy tính đã làm việc song song để phát triển các mô hình tự hồi quy lớn hoặc mô hình thế giới với mục tiêu匹 với hoặc vượt qua khả năng mở rộng và tính tổng quát của chúng, với các mô hình như DALL-E và VQGAN đã chứng minh tiềm năng của các mô hình tự hồi quy trong lĩnh vực tạo hình ảnh. Các mô hình này thường thực hiện một bộ mã hóa hình ảnh để đại diện hoặc xấp xỉ hình ảnh liên tục thành một lưới 2D token, sau đó được làm phẳng thành một chuỗi 1D cho việc học tự hồi quy, do đó phản ánh quá trình mô hình hóa ngôn ngữ tuần tự.

Tuy nhiên, các nhà nghiên cứu vẫn chưa khám phá các luật tỷ lệ của các mô hình này, và điều gì đó còn khó chịu hơn là thực tế rằng hiệu suất của các mô hình này thường kém hơn so với các mô hình khuếch tán bởi một khoảng cách đáng kể, như được chứng minh trong hình ảnh sau. Khoảng cách về hiệu suất cho thấy rằng khi so sánh với các mô hình ngôn ngữ lớn, khả năng của các mô hình tự hồi quy trong thị giác máy tính vẫn chưa được khám phá.

Một mặt, các mô hình tự hồi quy truyền thống yêu cầu một thứ tự dữ liệu được xác định, trong khi mặt khác, mô hình Tự hồi quy Hình ảnh hoặc mô hình VAR重新 xem xét cách sắp xếp thứ tự của một hình ảnh, và đây là điều phân biệt mô hình VAR với các phương pháp AR hiện có. Thông thường, con người tạo ra hoặc nhận thức một hình ảnh theo cách phân cấp, bắt đầu từ cấu trúc toàn cầu và sau đó là chi tiết địa phương, một cách tiếp cận đa quy mô, từ thô đến tinh, gợi ý một thứ tự tự nhiên cho hình ảnh. Hơn nữa, lấy cảm hứng từ các thiết kế đa quy mô, Khung VAR định nghĩa việc học tự hồi quy cho hình ảnh như dự đoán quy mô tiếp theo, trái ngược với các cách tiếp cận truyền thống định nghĩa việc học như dự đoán token tiếp theo. Cách tiếp cận được thực hiện bởi Khung VAR bắt đầu bằng cách mã hóa hình ảnh thành các bản đồ token đa quy mô. Sau đó, khung này bắt đầu quá trình tự hồi quy từ bản đồ token 1×1 và mở rộng dần về độ phân giải. Tại mỗi bước, bộ chuyển đổi dự đoán bản đồ token độ phân giải cao hơn tiếp theo có điều kiện trên tất cả các bản đồ trước đó, một phương pháp mà Khung VAR gọi là mô hình hóa VAR.

Khung VAR cố gắng tận dụng kiến trúc bộ chuyển đổi của GPT-2 cho việc học tự hồi quy hình ảnh, và kết quả là rõ ràng trên chuẩn mực ImageNet, nơi mô hình VAR cải thiện đáng kể baseline tự hồi quy, đạt được FID là 1,80 và điểm khởi đầu là 356, cùng với việc cải thiện 20 lần tốc độ suy luận. Điều gì thú vị hơn là Khung VAR quản lý để vượt qua hiệu suất của Khung chuyển đổi khuếch tán hoặc Khung DiT về mặt điểm FID và IS, khả năng mở rộng, tốc độ suy luận và hiệu quả dữ liệu. Hơn nữa, mô hình Tự hồi quy Hình ảnh VAR thể hiện các luật tỷ lệ mạnh mẽ tương tự như những luật được quan sát trong các mô hình ngôn ngữ lớn.

Để tóm tắt, Khung VAR cố gắng thực hiện các đóng góp sau.

Nó đề xuất một khung tạo hình ảnh mới sử dụng cách tiếp cận tự hồi quy đa quy mô với dự đoán quy mô tiếp theo, trái ngược với dự đoán token tiếp theo truyền thống, dẫn đến thiết kế thuật toán tự hồi quy cho các nhiệm vụ thị giác máy tính.
Nó cố gắng xác thực các luật tỷ lệ cho các mô hình tự hồi quy cùng với tiềm năng tổng quát hóa nhiệm vụ không có giám sát, mô phỏng các thuộc tính hấp dẫn của LLM.
Nó cung cấp một bước đột phá trong hiệu suất của các mô hình tự hồi quy hình ảnh, cho phép các khung tự hồi quy kiểu GPT vượt qua các mô hình khuếch tán hiện có trong các nhiệm vụ tổng hợp hình ảnh lần đầu tiên.

Hơn nữa, cũng quan trọng là thảo luận về các luật tỷ lệ hiện có, mô tả mối quan hệ toán học giữa kích thước dữ liệu, tham số mô hình, cải thiện hiệu suất và tài nguyên tính toán của các mô hình học máy. Trước hết, các luật tỷ lệ này giúp áp dụng hiệu suất của mô hình lớn hơn bằng cách tăng kích thước mô hình, chi phí tính toán và kích thước dữ liệu, tiết kiệm chi phí không cần thiết và phân bổ ngân sách đào tạo bằng cách cung cấp nguyên tắc. Thứ hai, các luật tỷ lệ đã chứng minh sự tăng trưởng hiệu suất nhất quán và không bão hòa. Tiếp tục với các nguyên tắc của các luật tỷ lệ trong các mô hình ngôn ngữ thần kinh, một số LLM thể hiện nguyên tắc rằng việc tăng quy mô của mô hình có xu hướng dẫn đến kết quả hiệu suất tốt hơn. Tổng quát hóa nhiệm vụ không có giám sát mặt khác đề cập đến khả năng của một mô hình, đặc biệt là LLM, thực hiện các nhiệm vụ mà nó không được đào tạo rõ ràng. Trong lĩnh vực thị giác máy tính, sự quan tâm đến việc xây dựng khả năng học không có giám sát và trong ngữ cảnh của các mô hình nền tảng.

Các mô hình ngôn ngữ phụ thuộc vào các thuật toán WordPiece hoặc cách tiếp cận mã hóa cặp byte cho việc mã hóa văn bản. Các mô hình tạo hình ảnh dựa trên mô hình ngôn ngữ cũng phụ thuộc nặng vào việc mã hóa hình ảnh 2D thành các chuỗi token 1D. Các công việc đầu tiên như VQVAE đã chứng minh khả năng đại diện cho hình ảnh dưới dạng token rời rạc với chất lượng tái tạo vừa phải. Người kế thừa của VQVAE, Khung VQGAN, đã kết hợp các tổn thất nhận thức và đối kháng để cải thiện độ trung thực của hình ảnh và cũng sử dụng một bộ chuyển đổi chỉ giải mã để tạo ra các token hình ảnh theo cách tự hồi quy tiêu chuẩn. Các mô hình khuếch tán mặt khác đã được coi là những người dẫn đầu trong các nhiệm vụ tổng hợp hình ảnh do sự đa dạng và chất lượng tạo ra vượt trội. Sự phát triển của các mô hình khuếch tán đã tập trung vào việc cải thiện các kỹ thuật lấy mẫu, nâng cao kiến trúc và lấy mẫu nhanh hơn. Các mô hình khuếch tán tiềm ẩn áp dụng khuếch tán trong không gian tiềm ẩn, cải thiện hiệu quả đào tạo và suy luận. Các mô hình chuyển đổi khuếch tán thay thế kiến trúc U-Net truyền thống bằng kiến trúc dựa trên bộ chuyển đổi và đã được triển khai trong các mô hình tổng hợp hình ảnh hoặc video gần đây như SORA và Stable Diffusion.

Visual AutoRegressive : Phương pháp và Kiến trúc

Ở cốt lõi, Khung VAR có hai giai đoạn đào tạo riêng biệt. Trong giai đoạn đầu, một bộ mã hóa tự hồi quy đa quy mô hoặc VQVAE mã hóa hình ảnh thành các bản đồ token, và tổn thất tái tạo hợp chất được thực hiện cho mục đích đào tạo. Trong hình ảnh trên, việc nhúng được định nghĩa là việc chuyển đổi các token rời rạc thành các vector nhúng liên tục. Trong giai đoạn thứ hai, bộ chuyển đổi trong mô hình VAR được đào tạo bằng cách tối thiểu hóa tổn thất cross-entropy hoặc tối đa hóa khả năng bằng cách sử dụng cách tiếp cận dự đoán quy mô tiếp theo. Bộ mã hóa VQVAE đã được đào tạo sau đó tạo ra bản đồ token cơ sở sự thật cho Khung VAR.

Mô hình Tự hồi quy qua Dự đoán Token Tiếp theo

Đối với một chuỗi token rời rạc cho trước, trong đó mỗi token là một số nguyên từ một từ vựng có kích thước V, mô hình tự hồi quy token tiếp theo đề xuất rằng xác suất quan sát token hiện tại chỉ phụ thuộc vào tiền tố của nó. Giả định rằng sự phụ thuộc token theo hướng cho phép Khung VAR phân tích xác suất của chuỗi thành sản phẩm của các xác suất có điều kiện. Việc đào tạo một mô hình tự hồi quy liên quan đến việc tối ưu hóa mô hình trên một tập dữ liệu, và quá trình tối ưu hóa này được gọi là dự đoán token tiếp theo, và cho phép mô hình đã được đào tạo tạo ra các chuỗi mới. Hơn nữa, hình ảnh là tín hiệu liên tục 2D theo bản chất, và việc áp dụng cách tiếp cận mô hình tự hồi quy cho hình ảnh qua quá trình tối ưu hóa dự đoán token tiếp theo có một số điều kiện tiên quyết. Đầu tiên, hình ảnh cần được mã hóa thành các token rời rạc. Thông thường, một bộ mã hóa tự hồi quy được thực hiện để chuyển đổi bản đồ tính năng hình ảnh thành các token rời rạc. Thứ hai, một thứ tự 1D của token phải được định nghĩa cho việc học tự hồi quy theo hướng.

Các token hình ảnh trong các token rời rạc được sắp xếp trong một lưới 2D, và không giống như các câu trong ngôn ngữ tự nhiên vốn có thứ tự từ trái sang phải, thứ tự của các token hình ảnh phải được định nghĩa rõ ràng cho việc học tự hồi quy theo hướng. Các cách tiếp cận tự hồi quy trước đây đã làm phẳng lưới 2D của các token rời rạc thành một chuỗi 1D bằng cách sử dụng các phương pháp như quét raster hàng chính, đường z hoặc thứ tự xoắn ốc. Khi các token rời rạc đã được làm phẳng, các mô hình AR trích xuất một tập hợp các chuỗi từ tập dữ liệu, và sau đó đào tạo một mô hình tự hồi quy để tối đa hóa khả năng vào sản phẩm của T xác suất có điều kiện bằng cách sử dụng dự đoán token tiếp theo.

Mô hình Tự hồi quy Hình ảnh qua Dự đoán Quy mô Tiếp theo

Khung VAR tái định nghĩa việc học tự hồi quy trên hình ảnh bằng cách chuyển từ dự đoán token tiếp theo sang cách tiếp cận dự đoán quy mô tiếp theo, một quá trình trong đó thay vì là một token đơn, đơn vị tự hồi quy là một bản đồ token hoàn chỉnh. Mô hình đầu tiên lượng hóa bản đồ tính năng thành các bản đồ token đa quy mô, mỗi bản đồ có độ phân giải cao hơn bản đồ trước, và kết thúc bằng việc khớp với độ phân giải của các bản đồ tính năng ban đầu. Hơn nữa, Khung VAR phát triển một bộ mã hóa lượng hóa đa quy mô mới để mã hóa hình ảnh thành các bản đồ token rời rạc đa quy mô, cần thiết cho việc học VAR. Khung VAR sử dụng cùng một kiến trúc như VQGAN, nhưng với một lớp lượng hóa đa quy mô được sửa đổi, với các thuật toán được trình bày trong hình ảnh sau.

Visual AutoRegressive : Kết quả và Thí nghiệm

Khung VAR sử dụng kiến trúc VQVAE vanilla với một lược đồ lượng hóa đa quy mô với K convolution extra, và sử dụng một cuốn sách mã chung cho tất cả các quy mô và một chiều ẩn là 32. Sự tập trung chính nằm ở thuật toán VAR, do đó thiết kế kiến trúc mô hình được giữ đơn giản nhưng hiệu quả. Khung này áp dụng kiến trúc của một bộ chuyển đổi chỉ giải mã tiêu chuẩn tương tự như những gì được thực hiện trên các mô hình GPT-2, với sự thay đổi duy nhất là thay thế chuẩn hóa lớp truyền thống bằng chuẩn hóa thích ứng hoặc AdaLN. Đối với tổng hợp điều kiện lớp, Khung VAR thực hiện việc nhúng lớp như token bắt đầu, và cũng là điều kiện của lớp chuẩn hóa thích ứng.

Kết quả Tạo hình ảnh Hiện đại

Khi so sánh với các khung tạo hình ảnh hiện có, bao gồm GAN hoặc Mạng đối kháng tạo, các mô hình dự đoán có mặt nạ kiểu BERT, các mô hình khuếch tán và các mô hình tự hồi quy kiểu GPT, Khung tự hồi quy hình ảnh cho thấy kết quả đầy hứa hẹn được tóm tắt trong bảng sau.

Như có thể quan sát được, Khung tự hồi quy hình ảnh không chỉ có khả năng đạt được điểm FID và IS tốt nhất, mà nó cũng thể hiện tốc độ tạo hình ảnh đáng kể, tương đương với các mô hình hiện đại. Hơn nữa, Khung VAR cũng duy trì điểm chính xác và hồi tưởng thỏa mãn, điều này xác nhận tính nhất quán ngữ nghĩa của nó. Nhưng điều ngạc nhiên thực sự là hiệu suất đáng chú ý được cung cấp bởi Khung VAR trên các nhiệm vụ khả năng tự hồi quy truyền thống, khiến nó trở thành mô hình tự hồi quy đầu tiên vượt qua Mô hình chuyển đổi khuếch tán, như được chứng minh trong bảng sau.

Kết quả Tổng quát hóa Nhiệm vụ Không có Giám sát

Đối với các nhiệm vụ tô màu trong và ngoài, Khung VAR buộc các token thực tế bên ngoài mặt nạ và để mô hình tạo ra chỉ các token trong mặt nạ, mà không có thông tin nhãn lớp nào được tiêm vào mô hình. Kết quả được trình bày trong hình ảnh sau, và như có thể thấy, mô hình VAR đạt được kết quả chấp nhận được trên các nhiệm vụ hạ lưu mà không cần điều chỉnh tham số hoặc sửa đổi kiến trúc mạng, thể hiện tính tổng quát của Khung VAR.

Suy nghĩ Cuối cùng

Trong bài viết này, chúng ta đã thảo luận về một khung tạo hình ảnh mới được gọi là Mô hình tự hồi quy hình ảnh (VAR) mà 1) giải quyết lý thuyết một số vấn đề vốn có trong các mô hình tự hồi quy hình ảnh tiêu chuẩn, và 2) làm cho các mô hình tự hồi quy dựa trên ngôn ngữ vượt qua các mô hình khuếch tán hiện có về chất lượng hình ảnh, đa dạng, hiệu quả dữ liệu và tốc độ suy luận. Một mặt, các mô hình tự hồi quy truyền thống yêu cầu một thứ tự dữ liệu được xác định, trong khi mặt khác, mô hình Tự hồi quy hình ảnh hoặc mô hình VAR tái định nghĩa cách sắp xếp thứ tự của một hình ảnh, và đây là điều phân biệt mô hình VAR với các phương pháp AR hiện có. Khi tăng quy mô VAR lên 2 tỷ tham số, các nhà phát triển của Khung VAR đã quan sát thấy một mối quan hệ rõ ràng theo luật lực giữa hiệu suất thử nghiệm và tham số mô hình hoặc tính toán đào tạo, với hệ số Pearson gần −0,998, chỉ ra một khung vững chắc cho dự đoán hiệu suất. Các luật tỷ lệ này và khả năng tổng quát hóa nhiệm vụ không có giám sát, như những đặc điểm của LLM, hiện đã được xác nhận ban đầu trong các mô hình chuyển đổi VAR của chúng tôi.