Trí tuệ nhân tạo

Hướng Dẫn Tự Chú Ý: Cải Thiện Chất Lượng Mẫu Của Mô Hình Khói

Đã xuất bản 2 tháng 1, 2024

Đã cập nhật 22 tháng 5, 2026

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Mô hình khói làm sạch là các khung khổ trí tuệ nhân tạo tạo ra hình ảnh từ tiếng ồn thông qua một quá trình làm sạch lặp lại. Chúng được ca ngợi vì khả năng tạo ra hình ảnh đặc biệt và đa dạng, chủ yếu được quy cho các phương pháp hướng dẫn có điều kiện văn bản hoặc lớp, bao gồm hướng dẫn phân loại và hướng dẫn miễn phí phân loại. Những mô hình này đã đạt được thành công đáng kể trong việc tạo ra hình ảnh đa dạng và chất lượng cao. Các nghiên cứu gần đây đã chỉ ra rằng các kỹ thuật hướng dẫn như chú thích lớp và nhãn đóng vai trò quan trọng trong việc nâng cao chất lượng hình ảnh mà những mô hình này tạo ra.

Tuy nhiên, mô hình khói và các phương pháp hướng dẫn phải đối mặt với những hạn chế trong certain điều kiện bên ngoài. Phương pháp Hướng Dẫn Miễn Phí Phân Loại (CFG) sử dụng việc bỏ nhãn, thêm phức tạp vào quá trình đào tạo, trong khi Phương pháp Hướng Dẫn Phân Loại (CG) đòi hỏi đào tạo phân loại bổ sung. Cả hai phương pháp đều bị hạn chế bởi sự phụ thuộc vào các điều kiện bên ngoài khó khăn, hạn chế tiềm năng và giới hạn chúng trong các thiết lập có điều kiện.

Để giải quyết những hạn chế này, các nhà phát triển đã xây dựng một cách tiếp cận tổng quát hơn đối với hướng dẫn khói, được gọi là Hướng Dẫn Tự Chú Ý (SAG). Phương pháp này tận dụng thông tin từ các mẫu trung gian của mô hình khói để tạo ra hình ảnh. Chúng tôi sẽ khám phá SAG trong bài viết này, thảo luận về cách thức hoạt động, phương pháp và kết quả so với các khung khổ và đường ống hiện tại.

Hướng Dẫn Tự Chú Ý : Cải Thiện Chất Lượng Mẫu Của Mô Hình Khói

Mô hình khói làm sạch (DDMs) đã trở nên phổ biến vì khả năng tạo ra hình ảnh từ tiếng ồn thông qua một quá trình làm sạch lặp lại. Khả năng tổng hợp hình ảnh của những mô hình này chủ yếu là do các phương pháp hướng dẫn khói được sử dụng. Mặc dù chúng có những điểm mạnh, mô hình khói và các phương pháp hướng dẫn dựa trên điều kiện phải đối mặt với những thách thức như sự phức tạp thêm vào và chi phí tính toán tăng cao.

Để vượt qua những hạn chế hiện tại, các nhà phát triển đã giới thiệu phương pháp Hướng Dẫn Tự Chú Ý, một công thức hướng dẫn khói tổng quát hơn không dựa vào thông tin bên ngoài từ hướng dẫn khói, do đó cho phép một cách tiếp cận linh hoạt và không điều kiện để hướng dẫn khung khổ khói. Cách tiếp cận được chọn bởi Hướng Dẫn Tự Chú Ý cuối cùng giúp nâng cao khả năng áp dụng các phương pháp hướng dẫn khói truyền thống cho các trường hợp có hoặc không có yêu cầu bên ngoài.

Hướng Dẫn Tự Chú Ý dựa trên nguyên tắc hình thức tổng quát hóa, và giả định rằng thông tin nội bộ chứa trong các mẫu trung gian có thể phục vụ như hướng dẫn. Dựa trên nguyên tắc này, phương pháp SAG đầu tiên giới thiệu Hướng Dẫn Làm Mờ, một giải pháp đơn giản và trực tiếp để cải thiện chất lượng mẫu. Hướng dẫn làm mờ nhằm khai thác các thuộc tính tốt của bộ lọc Gaussian làm mờ để loại bỏ các chi tiết nhỏ một cách tự nhiên bằng cách hướng dẫn các mẫu trung gian sử dụng thông tin bị loại bỏ do làm mờ Gaussian. Mặc dù phương pháp hướng dẫn làm mờ cải thiện chất lượng mẫu với một mức độ hướng dẫn vừa phải, nó không thể lặp lại kết quả trên một mức độ hướng dẫn lớn vì nó thường giới thiệu sự mơ hồ về cấu trúc trong các khu vực toàn bộ. Do đó, phương pháp hướng dẫn làm mờ gặp khó khăn trong việc căn chỉnh dự đoán của đầu vào ban đầu với dự đoán của đầu vào bị suy giảm. Để tăng cường sự ổn định và hiệu quả của phương pháp hướng dẫn làm mờ trên một mức độ hướng dẫn lớn hơn, Hướng Dẫn Tự Chú Ý cố gắng khai thác cơ chế tự chú ý của mô hình khói vì các mô hình khói hiện đại đã chứa một cơ chế tự chú ý trong kiến trúc của chúng.

Với giả định rằng tự chú ý là cần thiết để nắm bắt thông tin nổi bật ở lõi của nó, phương pháp Hướng Dẫn Tự Chú Ý sử dụng các bản đồ tự chú ý của mô hình khói để làm mờ các khu vực chứa thông tin nổi bật một cách đối lập, và trong quá trình này, hướng dẫn mô hình khói với thông tin dư thừa cần thiết. Phương pháp sau đó tận dụng các bản đồ chú ý trong quá trình đảo ngược của mô hình khói để tăng cường chất lượng hình ảnh và sử dụng tự điều kiện để giảm các hiện象 không mong muốn mà không cần đào tạo bổ sung hoặc thông tin bên ngoài.

Tóm lại, phương pháp Hướng Dẫn Tự Chú Ý

Là một cách tiếp cận mới sử dụng các bản đồ tự chú ý nội bộ của khung khổ khói để cải thiện chất lượng hình ảnh mẫu tạo ra mà không cần đào tạo bổ sung hoặc dựa vào điều kiện bên ngoài.
Phương pháp SAG cố gắng tổng quát hóa các phương pháp hướng dẫn có điều kiện thành một phương pháp không điều kiện có thể được tích hợp với bất kỳ mô hình khói nào mà không cần tài nguyên hoặc điều kiện bên ngoài bổ sung, do đó nâng cao khả năng áp dụng các khung khổ hướng dẫn dựa trên điều kiện.
Phương pháp SAG cũng cố gắng chứng minh khả năng trực giao với các phương pháp và khung khổ có điều kiện hiện có, do đó cho phép tăng hiệu suất bằng cách cho phép tích hợp linh hoạt với các phương pháp và mô hình khác.

Tiếp tục, phương pháp Hướng Dẫn Tự Chú Ý học hỏi từ các phát hiện của các khung khổ liên quan, bao gồm Mô Hình Khói Làm Sạch, Hướng Dẫn Mẫu, Phương Pháp Tự Chú Ý Trí Tuệ Nhân Tạo và Các Biểu Diễn Nội Bộ Của Mô Hình Khói. Tuy nhiên, ở cốt lõi của nó, phương pháp Hướng Dẫn Tự Chú Ý thực hiện các học hỏi từ DDPM hoặc Mô Hình Khói Làm Sạch Xác Suất, Hướng Dẫn Phân Loại, Hướng Dẫn Miễn Phí Phân Loại và Tự Chú Ý trong Khung Khổ Khói. Chúng tôi sẽ thảo luận về chúng một cách chi tiết trong phần tiếp theo.

Hướng Dẫn Tự Chú Ý : Những Điều Cơ Bản, Phương Pháp và Kiến Trúc

Mô Hình Khói Làm Sạch Xác Suất hoặc DDPM

DDPM hoặc Mô Hình Khói Làm Sạch Xác Suất là một mô hình sử dụng một quá trình làm sạch lặp lại để phục hồi một hình ảnh từ tiếng ồn trắng. Thông thường, một mô hình DDPM nhận một hình ảnh đầu vào và một lịch trình phương sai tại một bước thời gian để nhận được hình ảnh bằng cách sử dụng một quá trình tiến hành được gọi là quá trình Markov.

Phân Loại và Hướng Dẫn Miễn Phí Phân Loại với Thực Thi GAN

GAN hoặc Mạng Đối Nghịch Tạo có khả năng giao dịch đa dạng cho trung thực, và để mang lại khả năng này của khung khổ GAN đến mô hình khói, khung khổ Hướng Dẫn Tự Chú Ý đề xuất sử dụng một phương pháp hướng dẫn phân loại sử dụng một phân loại bổ sung. Ngược lại, một phương pháp hướng dẫn miễn phí phân loại cũng có thể được thực hiện mà không cần sử dụng một phân loại bổ sung để đạt được kết quả tương tự. Mặc dù phương pháp này mang lại kết quả mong muốn, nó vẫn không khả thi về mặt tính toán vì nó đòi hỏi nhãn bổ sung và cũng giới hạn khung khổ trong các mô hình khói có điều kiện đòi hỏi điều kiện bổ sung như văn bản hoặc lớp cùng với chi tiết đào tạo bổ sung thêm vào sự phức tạp của mô hình.

Tổng Quát Hóa Hướng Dẫn Khói

Mặc dù các phương pháp Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại mang lại kết quả mong muốn và giúp tạo ra hình ảnh có điều kiện trong mô hình khói, chúng phụ thuộc vào thông tin đầu vào bổ sung. Đối với bất kỳ bước thời gian nào, đầu vào cho một mô hình khói bao gồm một điều kiện tổng quát và một mẫu bị perturb mà không có điều kiện tổng quát. Hơn nữa, điều kiện tổng quát bao gồm thông tin nội bộ trong mẫu bị perturb hoặc một điều kiện bên ngoài, hoặc cả hai. Hướng dẫn kết quả được hình thành bằng cách sử dụng một hồi quy giả định với giả định rằng nó có thể dự đoán điều kiện tổng quát.

Cải Thiện Chất Lượng Hình Ảnh Sử Dụng Bản Đồ Tự Chú Ý

Hướng Dẫn Khói Tổng Quát ngụ ý rằng có thể cung cấp hướng dẫn cho quá trình đảo ngược của mô hình khói bằng cách trích xuất thông tin nổi bật trong điều kiện tổng quát chứa trong mẫu bị perturb. Xây dựng trên cùng, phương pháp Hướng Dẫn Tự Chú Ý nắm bắt thông tin nổi bật cho các quá trình đảo ngược một cách hiệu quả trong khi hạn chế các rủi ro phát sinh từ các vấn đề ngoài phạm vi phân phối trong các mô hình khói được đào tạo trước.

Hướng Dẫn Làm Mờ

Hướng dẫn làm mờ trong Hướng Dẫn Tự Chú Ý dựa trên Bộ Lọc Gaussian Làm Mờ, một phương pháp lọc tuyến tính trong đó tín hiệu đầu vào được kết hợp với một bộ lọc Gaussian để tạo ra một đầu ra. Với sự tăng lên của độ lệch chuẩn, Bộ Lọc Gaussian Làm Mờ giảm các chi tiết nhỏ trong tín hiệu đầu vào, và kết quả trong các tín hiệu đầu vào không thể phân biệt được địa phương bằng cách làm mịn chúng về hằng số. Hơn nữa, các thí nghiệm đã chỉ ra sự mất cân bằng thông tin giữa tín hiệu đầu vào và tín hiệu đầu ra của Bộ Lọc Gaussian Làm Mờ, trong đó tín hiệu đầu ra chứa nhiều thông tin chi tiết hơn.

Dựa trên học hỏi này, khung khổ Hướng Dẫn Tự Chú Ý giới thiệu Hướng Dẫn Làm Mờ, một kỹ thuật đơn giản và trực tiếp nhằm cải thiện chất lượng mẫu, và sử dụng thông tin này để hướng dẫn dự đoán của nó nhằm tăng cường sự liên quan của hình ảnh đến thông tin đầu vào. Hướng dẫn làm mờ cơ bản khiến dự đoán ban đầu lệch khỏi dự đoán đầu vào bị làm mờ. Hơn nữa, thuộc tính tốt của Bộ Lọc Gaussian Làm Mờ ngăn tín hiệu đầu ra lệch quá xa so với tín hiệu ban đầu với một độ lệch vừa phải. Nói đơn giản, làm mờ xảy ra trong hình ảnh một cách tự nhiên, điều này làm cho Bộ Lọc Gaussian Làm Mờ trở thành một phương pháp phù hợp hơn để áp dụng cho các mô hình khói được đào tạo trước.

Trong đường ống Hướng Dẫn Tự Chú Ý, tín hiệu đầu vào đầu tiên bị làm mờ bằng một bộ lọc Gaussian, và sau đó bị khói với nhiễu thêm để tạo ra tín hiệu đầu ra. Bằng cách làm như vậy, đường ống SAG giảm thiểu tác dụng phụ của sự làm mờ kết quả giảm nhiễu Gaussian, và khiến hướng dẫn phụ thuộc vào nội dung hơn là phụ thuộc vào nhiễu ngẫu nhiên. Mặc dù hướng dẫn làm mờ mang lại kết quả hài lòng trên các khung khổ có mức độ hướng dẫn vừa phải, nó không thể lặp lại kết quả trên các mô hình hiện có với mức độ hướng dẫn lớn vì nó dễ bị sản xuất kết quả nhiễu như được chứng minh trong hình ảnh sau.

Những kết quả này có thể là kết quả của sự mơ hồ về cấu trúc được giới thiệu trong khung khổ bởi làm mờ toàn cầu, điều này khiến đường ống SAG khó khăn trong việc căn chỉnh dự đoán của đầu vào ban đầu với dự đoán của đầu vào bị suy giảm, dẫn đến kết quả nhiễu.

Cơ Chế Tự Chú Ý

Như đã đề cập trước đó, mô hình khói thường có một thành phần tự chú ý được tích hợp, và nó là một trong những thành phần quan trọng hơn trong một khung khổ mô hình khói. Cơ chế tự chú ý được thực hiện tại lõi của mô hình khói, và nó cho phép mô hình chú ý đến các phần nổi bật của đầu vào trong quá trình tạo ra.

Phương pháp Hướng Dẫn Tự Chú Ý đề xuất xây dựng trên cùng nguyên tắc, và tận dụng khả năng của các bản đồ tự chú ý trong mô hình khói. Tổng thể, phương pháp Hướng Dẫn Tự Chú Ý làm mờ các bản đồ tự chú ý trong tín hiệu đầu vào hoặc đơn giản là che giấu thông tin của các bản đồ được mô hình khói chú ý. Hơn nữa, tín hiệu đầu ra trong Hướng Dẫn Tự Chú Ý chứa các vùng nguyên vẹn của tín hiệu đầu vào, có nghĩa là nó không dẫn đến sự mơ hồ về cấu trúc của đầu vào, và giải quyết vấn đề của làm mờ toàn cầu. Đường ống sau đó thu được các bản đồ tự chú ý tổng hợp bằng cách thực hiện GAP hoặcPooling trung bình toàn cầu để tổng hợp các bản đồ tự chú ý đến chiều, và lấy mẫu gần nhất để khớp với độ phân giải của tín hiệu đầu vào.

Hướng Dẫn Tự Chú Ý : Thí Nghiệm và Kết Quả

Để đánh giá hiệu suất của nó, đường ống Hướng Dẫn Tự Chú Ý được lấy mẫu sử dụng 8 card đồ họa Nvidia GeForce RTX 3090, và được xây dựng trên các khung khổ IDDPM, ADM, và Stable Diffusion đã được đào tạo trước.

Tạo Không Điều Kiện với Hướng Dẫn Tự Chú Ý

Để đo lường hiệu quả của đường ống SAG trên các mô hình không điều kiện và chứng minh tính chất không điều kiện mà không được sở hữu bởi Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại, đường ống SAG được chạy trên 50.000 mẫu đã được đào tạo không điều kiện.

Như có thể quan sát được, việc thực hiện đường ống SAG cải thiện điểm FID, sFID và IS của đầu vào không điều kiện trong khi giảm giá trị hồi tưởng tại cùng một thời điểm. Hơn nữa, sự cải thiện chất lượng như là kết quả của việc thực hiện đường ống SAG là rõ ràng trong các hình ảnh sau, trong đó hình ảnh trên cùng là kết quả từ các khung khổ ADM và Stable Diffusion, trong khi hình ảnh dưới cùng là kết quả từ các khung khổ ADM và Stable Diffusion với đường ống SAG.

Tạo Có Điều Kiện với SAG

Sự tích hợp của đường ống SAG vào các khung khổ hiện có mang lại kết quả đặc biệt trong tạo không điều kiện, và đường ống SAG có khả năng không điều kiện mà cho phép nó được thực hiện cho tạo có điều kiện cũng như.

Stable Diffusion với Hướng Dẫn Tự Chú Ý

Mặc dù khung khổ Stable Diffusion ban đầu tạo ra hình ảnh chất lượng cao, việc tích hợp khung khổ Stable Diffusion với đường ống Hướng Dẫn Tự Chú Ý có thể nâng cao kết quả một cách đáng kể. Để đánh giá hiệu ứng của nó, các nhà phát triển sử dụng các gợi ý trống cho Stable Diffusion với hạt ngẫu nhiên cho mỗi cặp hình ảnh, và sử dụng đánh giá của con người trên 500 cặp hình ảnh với và không có Hướng Dẫn Tự Chú Ý. Kết quả được thể hiện trong hình ảnh sau.

Hơn nữa, việc thực hiện SAG có thể nâng cao khả năng của khung khổ Stable Diffusion vì việc kết hợp Hướng Dẫn Miễn Phí Phân Loại với Hướng Dẫn Tự Chú Ý có thể mở rộng phạm vi của mô hình Stable Diffusion đến tổng hợp hình ảnh từ văn bản. Hơn nữa, các hình ảnh được tạo ra từ mô hình Stable Diffusion với Hướng Dẫn Tự Chú Ý có chất lượng cao hơn với ít hiện象 không mong muốn hơn, nhờ vào hiệu ứng tự điều kiện của đường ống SAG như được thể hiện trong hình ảnh sau.

Giới Hạn Hiện Tại

Mặc dù việc thực hiện đường ống Hướng Dẫn Tự Chú Ý có thể cải thiện đáng kể chất lượng hình ảnh được tạo ra, nó vẫn có một số giới hạn.

Một trong những giới hạn chính là tính trực giao với Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại. Như có thể quan sát được trong hình ảnh sau, việc thực hiện SAG cải thiện điểm FID và điểm dự đoán, điều này có nghĩa là đường ống SAG chứa một thành phần trực giao có thể được sử dụng cùng với các phương pháp hướng dẫn truyền thống đồng thời.

Tuy nhiên, nó vẫn đòi hỏi mô hình khói phải được đào tạo theo một cách cụ thể, điều này thêm vào sự phức tạp cũng như chi phí tính toán.

Hơn nữa, việc thực hiện Hướng Dẫn Tự Chú Ý không làm tăng việc sử dụng bộ nhớ hoặc thời gian, một dấu hiệu cho thấy sự chồng chéo từ các hoạt động như mặt nạ và làm mờ trong SAG là không đáng kể. Tuy nhiên, nó vẫn thêm vào chi phí tính toán vì nó bao gồm một bước bổ sung so với các phương pháp không có hướng dẫn.

Suy Nghĩ Cuối Cùng

Trong bài viết này, chúng tôi đã thảo luận về Hướng Dẫn Tự Chú Ý, một công thức hướng dẫn mới và tổng quát sử dụng thông tin nội bộ có sẵn trong mô hình khói để tạo ra hình ảnh chất lượng cao. Hướng Dẫn Tự Chú Ý dựa trên nguyên tắc hình thức tổng quát hóa, và giả định rằng thông tin nội bộ chứa trong các mẫu trung gian có thể phục vụ như hướng dẫn. Đường ống Hướng Dẫn Tự Chú Ý là một cách tiếp cận không điều kiện và không cần đào tạo, có thể được thực hiện trên các mô hình khói khác nhau, và sử dụng tự điều kiện để giảm các hiện象 không mong muốn và nâng cao chất lượng tổng thể.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.