Trí tuệ nhân tạo
Hướng Dẫn Tự Chú Ý: Cải Thiện Chất Lượng Mẫu Của Mô Hình Khói

Mô hình khói làm sạch là các khuôn khổ trí tuệ nhân tạo sinh có khả năng tổng hợp hình ảnh từ tiếng ồn thông qua một quá trình làm sạch lặp đi lặp lại. Chúng được ca ngợi vì khả năng tạo hình ảnh đặc biệt và đa dạng, chủ yếu được quy cho các phương pháp hướng dẫn có điều kiện văn bản hoặc lớp, bao gồm hướng dẫn phân loại và hướng dẫn miễn phí phân loại. Những mô hình này đã thành công đáng kể trong việc tạo ra hình ảnh đa dạng và chất lượng cao. Các nghiên cứu gần đây đã chỉ ra rằng các kỹ thuật hướng dẫn như chú thích lớp và nhãn đóng vai trò quan trọng trong việc cải thiện chất lượng hình ảnh mà các mô hình này tạo ra.
Tuy nhiên, mô hình khói và phương pháp hướng dẫn gặp phải những hạn chế trong certain điều kiện bên ngoài. Phương pháp Hướng Dẫn Miễn Phí Phân Loại (CFG) sử dụng việc bỏ nhãn, thêm phức tạp vào quá trình đào tạo, trong khi phương pháp Hướng Dẫn Phân Loại (CG) đòi hỏi đào tạo phân loại bổ sung. Cả hai phương pháp đều bị hạn chế bởi sự phụ thuộc vào các điều kiện bên ngoài khó kiếm, hạn chế tiềm năng và giới hạn chúng trong các thiết lập có điều kiện.
Để giải quyết những hạn chế này, các nhà phát triển đã xây dựng một cách tiếp cận chung hơn để hướng dẫn khói, được gọi là Hướng Dẫn Tự Chú Ý (SAG). Phương pháp này tận dụng thông tin từ các mẫu trung gian của mô hình khói để tạo ra hình ảnh. Chúng tôi sẽ khám phá SAG trong bài viết này, thảo luận về cách thức hoạt động, phương pháp và kết quả so với các khuôn khổ và đường ống hiện tại.
Hướng Dẫn Tự Chú Ý : Cải Thiện Chất Lượng Mẫu Của Mô Hình Khói
Mô hình khói làm sạch (DDMs) đã trở nên phổ biến vì khả năng tạo hình ảnh từ tiếng ồn thông qua một quá trình làm sạch lặp đi lặp lại. Khả năng tổng hợp hình ảnh của những mô hình này chủ yếu là do các phương pháp hướng dẫn khói được sử dụng. Mặc dù chúng có những điểm mạnh, mô hình khói và phương pháp hướng dẫn dựa trên đó gặp phải những thách thức như sự phức tạp thêm vào và tăng chi phí tính toán.
Để vượt qua những hạn chế hiện tại, các nhà phát triển đã giới thiệu phương pháp Hướng Dẫn Tự Chú Ý, một cách tiếp cận chung hơn để hướng dẫn khói không phụ thuộc vào thông tin bên ngoài từ hướng dẫn khói, do đó tạo điều kiện cho một cách tiếp cận linh hoạt và không điều kiện để hướng dẫn các khuôn khổ khói. Cách tiếp cận được chọn bởi Hướng Dẫn Tự Chú Ý cuối cùng giúp cải thiện khả năng áp dụng của các phương pháp hướng dẫn khói truyền thống vào các trường hợp có hoặc không có yêu cầu bên ngoài.
Hướng Dẫn Tự Chú Ý dựa trên nguyên tắc hình thức chung, và giả định rằng thông tin bên trong chứa trong các mẫu trung gian có thể phục vụ như hướng dẫn. Dựa trên nguyên tắc này, phương pháp SAG đầu tiên giới thiệu Hướng Dẫn Mờ, một giải pháp đơn giản và trực tiếp để cải thiện chất lượng mẫu. Hướng dẫn mờ nhằm khai thác các thuộc tính tốt của bộ lọc mờ Gaussian để loại bỏ các chi tiết nhỏ một cách tự nhiên bằng cách hướng dẫn các mẫu trung gian sử dụng thông tin bị loại bỏ như một kết quả của bộ lọc mờ Gaussian. Mặc dù phương pháp hướng dẫn mờ cải thiện chất lượng mẫu với một thang hướng dẫn vừa phải, nó không thể tái tạo kết quả trên thang hướng dẫn lớn vì nó thường giới thiệu sự không rõ ràng về cấu trúc trong các khu vực hoàn toàn. Do đó, phương pháp hướng dẫn mờ gặp khó khăn trong việc căn chỉnh dự đoán đầu vào ban đầu với dự đoán của đầu vào bị suy giảm. Để tăng cường sự ổn định và hiệu quả của phương pháp hướng dẫn mờ trên thang hướng dẫn lớn hơn, Hướng Dẫn Tự Chú Ý cố gắng khai thác cơ chế tự chú ý của các mô hình khói vì các mô hình khói hiện đại đã chứa một cơ chế tự chú ý trong kiến trúc của chúng.
Với giả định rằng tự chú ý là thiết yếu để nắm bắt thông tin nổi bật ở lõi, phương pháp Hướng Dẫn Tự Chú Ý sử dụng các bản đồ tự chú ý của mô hình khói để làm mờ các khu vực chứa thông tin nổi bật một cách đối lập, và trong quá trình này, hướng dẫn các mô hình khói với thông tin dư thừa cần thiết. Phương pháp này sau đó tận dụng các bản đồ chú ý trong quá trình đảo ngược của mô hình khói để tăng cường chất lượng hình ảnh và sử dụng tự điều kiện để giảm các hiện tượng không mong muốn mà không cần đào tạo thêm hoặc thông tin bên ngoài.

Để tóm lại, phương pháp Hướng Dẫn Tự Chú Ý
- Là một cách tiếp cận mới sử dụng các bản đồ tự chú ý bên trong của các khuôn khổ khói để cải thiện chất lượng hình ảnh mẫu mà không cần đào tạo thêm hoặc phụ thuộc vào điều kiện bên ngoài.
- Phương pháp SAG cố gắng khái quát hóa các phương pháp hướng dẫn có điều kiện thành một phương pháp không điều kiện có thể được tích hợp với bất kỳ mô hình khói nào mà không cần tài nguyên hoặc điều kiện bên ngoài thêm, do đó tăng cường khả năng áp dụng của các khuôn khổ hướng dẫn dựa trên.
- Phương pháp SAG cũng cố gắng chứng minh khả năng trực giao của nó với các phương pháp và mô hình hiện có, do đó tạo điều kiện cho việc tăng hiệu suất bằng cách cho phép tích hợp linh hoạt với các phương pháp và mô hình khác.
Tiếp tục, phương pháp Hướng Dẫn Tự Chú Ý học hỏi từ các khuôn khổ liên quan bao gồm Mô hình Khói Làm Sạch, Hướng Dẫn Mẫu, Phương pháp Tự Chú Ý của Trí Tuệ Nhân Tạo Sinh và Các Biểu Diễn Bên Trong của Mô Hình Khói. Tuy nhiên, ở cốt lõi, phương pháp Hướng Dẫn Tự Chú Ý thực hiện các kiến thức từ DDPM hoặc Mô Hình Khói Làm Sạch Xác Suất, Hướng Dẫn Phân Loại, Hướng Dẫn Miễn Phí Phân Loại và Tự Chú Ý trong Các Khuôn Phức Khói. Chúng tôi sẽ thảo luận về chúng sâu hơn trong phần tiếp theo.
Hướng Dẫn Tự Chú Ý : Những Điều Cơ Bản, Phương Pháp và Kiến Trúc
Mô Hình Khói Làm Sạch Xác Suất hoặc DDPM
DDPM hoặc Mô Hình Khói Làm Sạch Xác Suất là một mô hình sử dụng một quá trình làm sạch lặp đi lặp lại để phục hồi một hình ảnh từ tiếng ồn trắng. Thông thường, một mô hình DDPM nhận một hình ảnh đầu vào và một lịch trình phương sai tại một bước thời gian để nhận được hình ảnh bằng cách sử dụng một quá trình thuận gọi là quá trình Markovian.
Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại với Thực Hiện GAN
GAN hoặc Mạng Lưới Đối Nghịch Sinh có khả năng trao đổi đa dạng cho trung thực, và để mang lại khả năng này của khuôn khổ GAN vào các mô hình khói, khuôn khổ Hướng Dẫn Tự Chú Ý đề xuất sử dụng một phương pháp hướng dẫn phân loại sử dụng một phân loại bổ sung. Ngược lại, một phương pháp hướng dẫn miễn phí phân loại cũng có thể được thực hiện mà không cần sử dụng một phân loại bổ sung để đạt được kết quả tương tự. Mặc dù phương pháp này mang lại kết quả mong muốn, nó vẫn không khả thi về mặt tính toán vì nó đòi hỏi thêm nhãn, và cũng giới hạn khuôn khổ trong các mô hình khói có điều kiện yêu cầu thêm điều kiện như văn bản hoặc lớp cùng với chi tiết đào tạo thêm mà thêm vào sự phức tạp của mô hình.
Khái Quát Hóa Hướng Dẫn Khói
Mặc dù các phương pháp Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại mang lại kết quả mong muốn và giúp tạo ra hình ảnh có điều kiện trong các mô hình khói, chúng phụ thuộc vào đầu vào thêm. Đối với bất kỳ bước thời gian nào, đầu vào cho một mô hình khói bao gồm một điều kiện chung và một mẫu bị làm suy giảm mà không có điều kiện chung. Hơn nữa, điều kiện chung bao gồm thông tin bên trong mẫu bị làm suy giảm hoặc một điều kiện bên ngoài, hoặc cả hai. Hướng dẫn kết quả được hình thức hóa bằng cách sử dụng một hồi quy giả định với giả định rằng nó có thể dự đoán điều kiện chung.
Cải Thiện Chất Lượng Hình Ảnh Sử Dụng Bản Đồ Tự Chú Ý
Hướng Dẫn Khói Chung ngụ ý rằng nó có thể cung cấp hướng dẫn cho quá trình đảo ngược của các mô hình khói bằng cách trích xuất thông tin nổi bật trong điều kiện chung chứa trong mẫu bị làm suy giảm. Xây dựng trên cùng, phương pháp Hướng Dẫn Tự Chú Ý nắm bắt thông tin nổi bật cho các quá trình đảo ngược một cách hiệu quả trong khi giới hạn các rủi ro phát sinh từ các vấn đề ngoài phạm vi phân phối trong các mô hình khói được đào tạo trước.
Hướng Dẫn Mờ
Hướng dẫn mờ trong Hướng Dẫn Tự Chú Ý dựa trên Bộ Lọc Mờ Gaussian, một phương pháp lọc tuyến tính trong đó tín hiệu đầu vào được kết hợp với một bộ lọc Gaussian để tạo ra một tín hiệu đầu ra. Với sự tăng lên của độ lệch chuẩn, Bộ Lọc Mờ Gaussian giảm các chi tiết nhỏ trong tín hiệu đầu vào, và kết quả trong các tín hiệu đầu vào không thể phân biệt được tại địa phương bằng cách làm mịn chúng về hằng số. Hơn nữa, các thí nghiệm đã chỉ ra sự mất cân bằng thông tin giữa tín hiệu đầu vào và tín hiệu đầu ra của bộ lọc mờ Gaussian nơi tín hiệu đầu ra chứa nhiều thông tin nhỏ hơn.
Dựa trên kiến thức này, khuôn khổ Hướng Dẫn Tự Chú Ý giới thiệu Hướng Dẫn Mờ, một kỹ thuật cố ý loại bỏ thông tin từ các mẫu trung gian trong quá trình khói, và thay vào đó, sử dụng thông tin này để hướng dẫn dự đoán của nó nhằm tăng cường sự liên quan của hình ảnh đến thông tin đầu vào. Hướng dẫn mờ cơ bản gây ra dự đoán ban đầu devi hơn từ dự đoán của đầu vào bị mờ. Hơn nữa, thuộc tính tốt của bộ lọc mờ Gaussian ngăn không cho tín hiệu đầu ra devi đáng kể từ tín hiệu ban đầu với một sự devi vừa phải. Trong những lời đơn giản, sự mờ xảy ra trong hình ảnh một cách tự nhiên làm cho bộ lọc mờ Gaussian trở thành một phương pháp phù hợp hơn để áp dụng cho các mô hình khói được đào tạo trước.
Trong đường ống Hướng Dẫn Tự Chú Ý, tín hiệu đầu vào đầu tiên bị mờ bằng cách sử dụng một bộ lọc Gaussian, và sau đó bị làm suy giảm với tiếng ồn thêm để tạo ra tín hiệu đầu ra. Bằng cách làm như vậy, đường ống SAG giảm thiểu tác dụng phụ của sự mờ kết quả giảm tiếng ồn Gaussian, và làm cho hướng dẫn phụ thuộc vào nội dung hơn là phụ thuộc vào tiếng ồn ngẫu nhiên. Mặc dù hướng dẫn mờ mang lại kết quả thỏa mãn trên các khuôn khổ có thang hướng dẫn vừa phải, nó không thể tái tạo kết quả trên các mô hình hiện có với thang hướng dẫn lớn vì nó dễ bị tạo ra kết quả nhiễu như được chứng minh trong hình ảnh sau.

Những kết quả này có thể là kết quả của sự không rõ ràng về cấu trúc được giới thiệu trong khuôn khổ bởi sự mờ toàn cầu làm cho nó khó khăn cho đường ống SAG để căn chỉnh dự đoán của đầu vào ban đầu với dự đoán của đầu vào bị suy giảm, dẫn đến kết quả nhiễu.
Cơ Chế Tự Chú Ý
Như đã đề cập trước đó, các mô hình khói thường có một thành phần tự chú ý được xây dựng, và nó là một trong những thành phần quan trọng hơn trong khuôn khổ mô hình khói. Cơ chế tự chú ý được thực hiện tại lõi của các mô hình khói, và nó cho phép mô hình chú ý đến các phần nổi bật của đầu vào trong quá trình tạo ra.

Phương pháp Hướng Dẫn Tự Chú Ý đề xuất xây dựng trên cùng nguyên tắc, và tận dụng khả năng của các bản đồ tự chú ý trong các mô hình khói. Tổng thể, phương pháp Hướng Dẫn Tự Chú Ý làm mờ các bản đồ tự chú ý trong tín hiệu đầu vào hoặc đơn giản là che giấu thông tin của các bản đồ được chú ý bởi các mô hình khói. Hơn nữa, tín hiệu đầu ra trong Hướng Dẫn Tự Chú Ý chứa các vùng nguyên vẹn của tín hiệu đầu vào, có nghĩa là nó không dẫn đến sự không rõ ràng về cấu trúc của đầu vào, và giải quyết vấn đề của sự mờ toàn cầu. Đường ống sau đó nhận được các bản đồ tự chú ý tổng hợp bằng cách thực hiện GAP hoặc Tổng Hợp Trung Bình Toàn Cầu để tổng hợp các bản đồ tự chú ý đến chiều, và lấy mẫu gần nhất để khớp với độ phân giải của tín hiệu đầu vào.
Hướng Dẫn Tự Chú Ý : Thí Nghiệm và Kết Quả
Để đánh giá hiệu suất của nó, đường ống Hướng Dẫn Tự Chú Ý được lấy mẫu bằng cách sử dụng 8 GPU Nvidia GeForce RTX 3090, và được xây dựng trên các khuôn khổ IDDPM, ADM và Stable Diffusion được đào tạo trước.
Tạo Ra Không Điều Kiện với Hướng Dẫn Tự Chú Ý
Để đo lường hiệu quả của đường ống SAG trên các mô hình không điều kiện và chứng minh tính chất không điều kiện không được sở hữu bởi Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại, đường ống SAG được chạy trên các khuôn khổ được đào tạo trước không điều kiện trên 50.000 mẫu.

Như có thể quan sát được, việc thực hiện đường ống SAG cải thiện các chỉ số FID, sFID và IS của đầu vào không điều kiện trong khi giảm giá trị nhớ tại cùng một thời điểm. Hơn nữa, các cải thiện chất lượng như một kết quả của việc thực hiện đường ống SAG rõ ràng trong các hình ảnh sau nơi hình ảnh ở trên là kết quả từ các khuôn khổ ADM và Stable Diffusion, trong khi hình ảnh ở dưới là kết quả từ các khuôn khổ ADM và Stable Diffusion với đường ống SAG.


Tạo Ra Có Điều Kiện với SAG
Tích hợp đường ống SAG vào các khuôn khổ hiện có mang lại kết quả đặc biệt trong tạo ra không điều kiện, và đường ống SAG có khả năng không điều kiện cho phép nó được thực hiện cho tạo ra có điều kiện.
Stable Diffusion với Hướng Dẫn Tự Chú Ý
Mặc dù khuôn khổ Stable Diffusion ban đầu tạo ra hình ảnh chất lượng cao, tích hợp khuôn khổ Stable Diffusion với đường ống Hướng Dẫn Tự Chú Ý có thể cải thiện kết quả đáng kể. Để đánh giá tác động của nó, các nhà phát triển sử dụng các gợi ý trống cho Stable Diffusion với hạt ngẫu nhiên cho mỗi cặp hình ảnh, và sử dụng đánh giá của con người trên 500 cặp hình ảnh với và không có Hướng Dẫn Tự Chú Ý. Kết quả được chứng minh trong hình ảnh sau.

Hơn nữa, việc thực hiện SAG có thể tăng cường khả năng của khuôn khổ Stable Diffusion vì việc kết hợp Hướng Dẫn Miễn Phí Phân Loại với Hướng Dẫn Tự Chú Ý có thể mở rộng phạm vi của các mô hình Stable Diffusion đến tổng hợp hình ảnh từ văn bản. Hơn nữa, hình ảnh được tạo ra từ mô hình Stable Diffusion với Hướng Dẫn Tự Chú Ý có chất lượng cao hơn với ít hiện象 không mong muốn hơn nhờ vào hiệu ứng tự điều kiện của đường ống SAG như được chứng minh trong hình ảnh sau.

Giới Hạn Hiện Tại
Mặc dù việc thực hiện đường ống Hướng Dẫn Tự Chú Ý có thể cải thiện đáng kể chất lượng hình ảnh được tạo ra, nó vẫn có một số giới hạn.
Một trong những giới hạn chính là tính trực giao với Hướng Dẫn Phân Loại và Hướng Dẫn Miễn Phí Phân Loại. Như có thể quan sát được trong hình ảnh sau, việc thực hiện SAG cải thiện điểm FID và điểm dự đoán, có nghĩa là đường ống SAG chứa một thành phần trực giao có thể được sử dụng cùng với các phương pháp hướng dẫn truyền thống đồng thời.

Tuy nhiên, nó vẫn đòi hỏi các mô hình khói được đào tạo theo một cách cụ thể, điều này thêm vào sự phức tạp cũng như chi phí tính toán.
Hơn nữa, việc thực hiện Hướng Dẫn Tự Chú Ý không làm tăng bộ nhớ hoặc tiêu thụ thời gian, một dấu hiệu cho thấy sự chồng chéo từ các hoạt động như che giấu và làm mờ trong SAG là không đáng kể. Tuy nhiên, nó vẫn thêm vào chi phí tính toán vì nó bao gồm một bước thêm so với các phương pháp không hướng dẫn.

Suy Nghĩ Cuối Cùng
Trong bài viết này, chúng tôi đã thảo luận về Hướng Dẫn Tự Chú Ý, một cách tiếp cận chung mới để hướng dẫn khói sử dụng thông tin bên trong có sẵn trong các mô hình khói để tạo ra hình ảnh chất lượng cao. Hướng Dẫn Tự Chú Ý dựa trên nguyên tắc hình thức chung, và giả định rằng thông tin bên trong chứa trong các mẫu trung gian có thể phục vụ như hướng dẫn. Đường ống Hướng Dẫn Tự Chú Ý là một cách tiếp cận không điều kiện và không đào tạo có thể được thực hiện trên các mô hình khói khác nhau, và sử dụng tự điều kiện để giảm các hiện tượng không mong muốn trong hình ảnh được tạo ra, và tăng cường chất lượng tổng thể.












