Trí tuệ nhân tạo

HD-Painter: Tạo ảnh từ văn bản độ phân giải cao với mô hình khuếch tán

Published February 13, 2024

Updated April 4, 2026

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Mô hình khuếch tán đoubtedly đã cách mạng hóa ngành AI và ML, với các ứng dụng trong thời gian thực trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta. Sau khi các mô hình văn bản-sang-ảnh展示 khả năng đáng kinh ngạc, các kỹ thuật xử lý ảnh dựa trên khuếch tán, chẳng hạn như tạo ra, tổng hợp ảnh chuyên dụng và cá nhân hóa, chỉnh sửa ảnh cấp độ đối tượng, biến thể và chỉnh sửa theo lời nhắc, đã trở thành chủ đề nghiên cứu nóng do ứng dụng của chúng trong ngành tầm nhìn máy tính.

Tuy nhiên, mặc dù có khả năng ấn tượng và kết quả đặc biệt, các khung văn bản-sang-ảnh, đặc biệt là các khung văn bản-sang-ảnh tạo ảnh, vẫn còn những lĩnh vực có thể phát triển. Điều này bao gồm khả năng hiểu các cảnh toàn cầu, đặc biệt khi làm sạch ảnh trong các bước khuếch tán cao. Để giải quyết vấn đề này, các nhà nghiên cứu đã giới thiệu HD-Painter, một khung không cần đào tạo hoàn toàn tuân theo các hướng dẫn lời nhắc và mở rộng đến việc tạo ảnh độ phân giải cao một cách nhất quán. Khung HD-Painter sử dụng một lớp Prompt Aware Introverted Attention (PAIntA), tận dụng thông tin lời nhắc để tăng cường điểm tự chú ý, dẫn đến việc tạo ra sự liên kết văn bản tốt hơn.

Để cải thiện thêm sự nhất quán của lời nhắc, mô hình HD-Painter giới thiệu một phương pháp Reweighting Attention Score Guidance (RASG). Phương pháp này tích hợp một chiến lược lấy mẫu hậu giám sát vào dạng chung của thành phần DDIM một cách mượt mà, ngăn chặn sự thay đổi 潛 ở mức độ phân tán. Ngoài ra, khung HD-Painter còn có một kỹ thuật siêu phân giải chuyên dụng cho việc tạo ảnh, cho phép nó mở rộng đến các quy mô lớn hơn và hoàn thành các vùng bị thiếu trong ảnh với độ phân giải lên đến 2K.

HD-Painter: Tạo ảnh từ văn bản

Các mô hình khuếch tán văn bản-sang-ảnh đã thực sự là một chủ đề quan trọng trong ngành AI và ML trong những tháng gần đây, với các mô hình thể hiện khả năng thực tế ấn tượng trên nhiều ứng dụng thực tế. Các mô hình tạo ảnh văn bản được đào tạo trước như DALL-E, Imagen và Stable Diffusion đã chứng minh sự phù hợp của chúng cho việc hoàn thành ảnh bằng cách kết hợp các vùng không rõ ràng (tạo ra) với các vùng đã biết trong quá trình khuếch tán ngược. Mặc dù tạo ra các kết quả trực quan hấp dẫn và hài hòa, các mô hình hiện có vẫn gặp khó khăn trong việc hiểu cảnh toàn cầu, đặc biệt là trong quá trình làm sạch khuếch tán cao. Bằng cách sửa đổi các mô hình tạo ảnh văn bản được đào tạo trước để kết hợp thông tin ngữ cảnh bổ sung, chúng có thể được tinh chỉnh cho việc hoàn thành ảnh hướng dẫn bởi văn bản.

Hơn nữa, trong các mô hình khuếch tán, việc tạo ảnh hướng dẫn bởi văn bản và hoàn thành ảnh hướng dẫn bởi văn bản là những lĩnh vực quan tâm chính của các nhà nghiên cứu. Sự quan tâm này được thúc đẩy bởi thực tế là các mô hình tạo ảnh hướng dẫn bởi văn bản có thể tạo ra nội dung trong các vùng cụ thể của ảnh đầu vào dựa trên lời nhắc văn bản, dẫn đến các ứng dụng tiềm năng như chỉnh sửa các vùng cụ thể của ảnh, sửa đổi thuộc tính chủ thể như màu sắc hoặc quần áo và thêm hoặc thay thế đối tượng. Tóm lại, các mô hình tạo ảnh văn bản đã đạt được thành công chưa từng có, nhờ vào khả năng tạo ra hình ảnh thực tế và trực quan hấp dẫn.

Tuy nhiên, đa số các khung hiện có thể hiện sự bỏ qua lời nhắc trong hai kịch bản. Đầu tiên là Đominance của nền khi mô hình hoàn thành vùng không rõ ràng bằng cách bỏ qua lời nhắc trong nền, trong khi kịch bản thứ hai là sự thống trị của đối tượng gần đó khi mô hình truyền播 các đối tượng của vùng đã biết đến vùng không rõ ràng bằng cách sử dụng khả năng của ngữ cảnh hình ảnh thay vì lời nhắc đầu vào. Có thể cả hai vấn đề này đều là kết quả của khả năng của mô hình khuếch tán thông thường trong việc diễn giải lời nhắc văn bản một cách chính xác hoặc trộn nó với thông tin ngữ cảnh thu được từ vùng đã biết.

Để giải quyết những chướng ngại vật này, khung HD-Painter giới thiệu lớp Prompt Aware Introverted Attention hoặc PAIntA, sử dụng thông tin lời nhắc để tăng cường điểm tự chú ý, dẫn đến việc tạo ra sự liên kết văn bản tốt hơn. PAIntA sử dụng điều kiện lời nhắc được cho để tăng cường điểm tự chú ý với mục đích giảm tác động của thông tin không liên quan đến lời nhắc từ vùng ảnh, đồng thời tăng cường đóng góp của các pixel đã biết được liên kết với lời nhắc. Để cải thiện thêm sự liên kết văn bản của kết quả tạo ra, khung HD-Painter thực hiện một phương pháp hướng dẫn hậu giám sát, tận dụng điểm chú ý chéo. Tuy nhiên, việc thực hiện cơ chế hướng dẫn hậu giám sát thông thường có thể gây ra sự thay đổi phân phối ngoài phạm vi, do sự xuất hiện của thuật ngữ gradient bổ sung trong phương trình khuếch tán. Sự thay đổi phân phối ngoài phạm vi sẽ cuối cùng dẫn đến sự suy giảm chất lượng của ảnh tạo ra. Để giải quyết chướng ngại vật này, khung HD-Painter thực hiện một phương pháp Reweighting Attention Score Guidance hoặc RASG, một phương pháp tích hợp chiến lược lấy mẫu hậu giám sát vào dạng chung của thành phần DDIM một cách mượt mà. Nó cho phép khung tạo ra kết quả tạo ảnh trực quan bằng cách hướng dẫn mẫu tới các latent liên kết với lời nhắc và giữ chúng trong phạm vi đã được đào tạo.

Bằng cách triển khai cả hai thành phần RASH và PAIntA trong kiến trúc của nó, khung HD-Painter có một lợi thế đáng kể so với các mô hình hiện có, bao gồm cả mô hình tinh chỉnh, tạo ảnh và khuếch tán văn bản, vì nó có thể giải quyết vấn đề bỏ qua lời nhắc hiện có. Hơn nữa, cả hai thành phần RASH và PAIntA đều cung cấp chức năng cắm và chơi, cho phép chúng tương thích với các mô hình khuếch tán tạo ảnh để giải quyết các thách thức trên. Ngoài ra, bằng cách triển khai công nghệ trộn thời gian và tận dụng khả năng của mô hình khuếch tán độ phân giải cao, đường ống HD-Painter có thể hoạt động hiệu quả cho việc tạo ảnh lên đến độ phân giải 2K.

Tóm lại, HD-Painter nhằm thực hiện các đóng góp sau trong lĩnh vực:

Nó nhằm giải quyết vấn đề bỏ qua lời nhắc của nền và sự thống trị của đối tượng gần đó mà các khung tạo ảnh hướng dẫn bởi văn bản gặp phải, bằng cách triển khai lớp Prompt Aware Introverted Attention hoặc PAIntA trong kiến trúc của nó.
Nó nhằm cải thiện sự liên kết văn bản của kết quả đầu ra bằng cách triển khai lớp Reweighting Attention Score Guidance hoặc RASG trong kiến trúc của nó, cho phép khung HD-Painter thực hiện lấy mẫu hậu giám sát trong khi ngăn chặn sự thay đổi phân phối ngoài phạm vi.
Để thiết kế một đường ống hoàn thành ảnh hướng dẫn bởi văn bản hiệu quả và không cần đào tạo, có khả năng vượt trội so với các khung hiện có, và sử dụng khung siêu phân giải chuyên dụng cho việc tạo ảnh để thực hiện việc tạo ảnh hướng dẫn bởi văn bản lên đến độ phân giải 2K.

HD-Painter: Phương pháp và Kiến trúc

Trước khi chúng ta xem xét kiến trúc, điều quan trọng là phải hiểu ba khái niệm cơ bản hình thành nền tảng của khung HD-Painter: Tạo ảnh, Hướng dẫn hậu giám sát trong các khung khuếch tán, và Các khối kiến trúc chuyên dụng cho tạo ảnh.

Tạo ảnh là một phương pháp nhằm lấp đầy các vùng bị thiếu trong ảnh trong khi đảm bảo sự hấp dẫn trực quan của ảnh tạo ra. Các khung học sâu truyền thống đã thực hiện các phương pháp sử dụng các vùng đã biết để truyền播 các tính năng sâu. Tuy nhiên, sự giới thiệu của các mô hình khuếch tán đã dẫn đến sự tiến hóa của các mô hình tạo ảnh, đặc biệt là các khung tạo ảnh hướng dẫn bởi văn bản. Truyền thống, một mô hình khuếch tán văn bản được đào tạo trước thay thế vùng không rõ ràng của latent bằng cách sử dụng phiên bản bị nhiễu của vùng đã biết trong quá trình lấy mẫu. Mặc dù phương pháp này hoạt động đến một mức độ nhất định, nó làm suy giảm chất lượng của ảnh tạo ra đáng kể vì mạng làm sạch chỉ nhìn thấy phiên bản bị nhiễu của vùng đã biết. Để giải quyết chướng ngại vật này, một số phương pháp nhằm tinh chỉnh mô hình tạo ảnh văn bản được đào tạo trước để đạt được việc tạo ảnh hướng dẫn bởi văn bản. Bằng cách triển khai phương pháp này, khung có thể tạo ra một mặt nạ ngẫu nhiên thông qua việc kết hợp vì mô hình có thể điều kiện mạng làm sạch trên vùng không bị che.

Di chuyển tiếp, các mô hình học sâu truyền thống đã triển khai các lớp thiết kế đặc biệt cho việc tạo ảnh hiệu quả, với một số khung có thể trích xuất thông tin hiệu quả và tạo ra ảnh trực quan hấp dẫn bằng cách giới thiệu các lớp convolution đặc biệt để xử lý các vùng đã biết của ảnh. Một số khung thậm chí thêm một lớp chú ý ngữ cảnh vào kiến trúc của chúng để giảm yêu cầu tính toán nặng nề của tất cả các chú ý tự cho việc tạo ảnh chất lượng cao.

Cuối cùng, các phương pháp hướng dẫn hậu giám sát là các phương pháp lấy mẫu khuếch tán ngược, hướng dẫn dự đoán latent bước tiếp theo tới một mục tiêu tối thiểu hóa hàm. Các phương pháp hướng dẫn hậu giám sát rất hữu ích khi tạo ra nội dung trực quan, đặc biệt là trong sự hiện diện của các ràng buộc bổ sung. Tuy nhiên, các phương pháp hướng dẫn hậu giám sát có một hạn chế lớn: chúng được biết đến là gây ra sự suy giảm chất lượng ảnh vì chúng có xu hướng thay đổi quá trình tạo latent bằng một thuật ngữ gradient.

Đến kiến trúc của HD-Painter, khung đầu tiên xây dựng vấn đề hoàn thành ảnh hướng dẫn bởi văn bản, và sau đó giới thiệu hai mô hình khuếch tán, cụ thể là Stable Inpainting và Stable Diffusion. Khung HD-Painter sau đó giới thiệu các khối PAIntA và RASG, và cuối cùng, chúng ta có kỹ thuật siêu phân giải chuyên dụng cho tạo ảnh.

Stable Diffusion và Stable Inpainting

Stable Diffusion là một mô hình khuếch tán hoạt động trong không gian latent của một bộ tự động mã hóa. Đối với việc tạo ảnh từ văn bản, khung Stable Diffusion triển khai một lời nhắc văn bản để hướng dẫn quá trình. Hàm hướng dẫn có cấu trúc tương tự như kiến trúc UNet, và các lớp chú ý chéo điều kiện nó trên các lời nhắc văn bản. Hơn nữa, mô hình Stable Diffusion có thể thực hiện việc tạo ảnh bằng cách sửa đổi và tinh chỉnh nó. Để đạt được điều này, các tính năng của ảnh bị che được tạo ra bởi bộ mã hóa được kết hợp với mặt nạ nhị phân giảm kích thước đến các latent. Tensor kết quả sau đó được nhập vào kiến trúc UNet để thu được ước tính nhiễu. Khung sau đó khởi tạo các bộ lọc convolution mới được thêm vào bằng không, trong khi phần còn lại của UNet được khởi tạo sử dụng các điểm kiểm tra được đào tạo trước từ mô hình Stable Diffusion.

Hình ảnh trên minh họa tổng quan của khung HD-Painter bao gồm hai giai đoạn. Trong giai đoạn đầu, khung HD-Painter triển khai việc tạo ảnh hướng dẫn bởi văn bản, trong khi ở giai đoạn thứ hai, mô hình tạo ảnh siêu phân giải của đầu ra. Để lấp đầy các vùng bị thiếu và duy trì sự nhất quán với lời nhắc đầu vào, mô hình lấy một mô hình khuếch tán tạo ảnh được đào tạo trước, thay thế các lớp tự chú ý bằng các lớp PAIntA, và triển khai cơ chế RASG để thực hiện quá trình khuếch tán ngược. Mô hình sau đó giải mã latent ước tính cuối cùng, dẫn đến việc tạo ra một ảnh được tạo. HD-Painter sau đó triển khai mô hình siêu phân giải ổn định để tạo ảnh ở kích thước ban đầu, và triển khai quá trình khuếch tán ngược của khung Stable Diffusion được điều kiện trên ảnh đầu vào có độ phân giải thấp. Mô hình sau đó trộn dự đoán làm sạch với mã hóa của ảnh gốc trong vùng đã biết sau mỗi bước, và dẫn xuất latent tiếp theo. Cuối cùng, mô hình giải mã latent và triển khai trộn Poisson để tránh các hiện tượng cạnh.

Prompt Aware Introverted Attention hoặc PAIntA

Các mô hình tạo ảnh hiện có như Stable Inpainting có xu hướng phụ thuộc nhiều vào ngữ cảnh hình ảnh xung quanh vùng tạo ảnh và bỏ qua các lời nhắc đầu vào. Dựa trên kinh nghiệm người dùng, vấn đề này có thể được phân loại thành hai loại: sự thống trị của đối tượng gần đó và sự thống trị của nền. Vấn đề về sự thống trị của ngữ cảnh hình ảnh trên lời nhắc đầu vào có thể là kết quả của tính chất không gian và không có lời nhắc của các lớp tự chú ý. Để giải quyết vấn đề này, khung HD-Painter giới thiệu Prompt Aware Introverted Attention hoặc PAIntA, sử dụng ma trận chú ý chéo và mặt nạ tạo ảnh để kiểm soát đầu ra của các lớp tự chú ý trong vùng không rõ ràng.

Thành phần Prompt Aware Introverted Attention đầu tiên áp dụng các lớp chiếu để thu được khóa, giá trị và truy vấn cùng với ma trận tương tự. Mô hình sau đó điều chỉnh điểm chú ý của các pixel đã biết để giảm thiểu ảnh hưởng mạnh của vùng đã biết đến vùng không rõ ràng, và định nghĩa một ma trận tương tự mới bằng cách tận dụng lời nhắc văn bản.

Reweighting Attention Score Guidance hoặc RASG

Khung HD-Painter áp dụng một phương pháp lấy mẫu hậu giám sát để cải thiện sự liên kết của tạo ảnh với lời nhắc văn bản thậm chí còn hơn. Cùng với một hàm mục tiêu, phương pháp hướng dẫn lấy mẫu hậu giám sát nhằm tận dụng các tính chất phân đoạn từ vựng mở của các lớp chú ý chéo. Tuy nhiên, phương pháp hướng dẫn hậu giám sát thông thường này có thể thay đổi miền latent của khuếch tán, có thể làm suy giảm chất lượng của ảnh tạo ra. Để giải quyết vấn đề này, mô hình HD-Painter triển khai cơ chế Reweighting Attention Score Guidance hoặc RASG, giới thiệu một cơ chế tái cân bằng gradient, dẫn đến việc bảo tồn miền latent.

HD-Painter : Thử nghiệm và Kết quả

Để phân tích hiệu suất của nó, khung HD-Painter được so sánh với các mô hình hiện có, bao gồm Stable Inpainting, GLIDE và BLD hoặc Blended Latent Diffusion trên 10000 mẫu ngẫu nhiên, nơi lời nhắc được chọn là nhãn của mặt nạ thể hiện.

Như có thể thấy, khung HD-Painter vượt trội so với các khung hiện có trên ba chỉ số khác nhau với một khoảng cách đáng kể, đặc biệt là sự cải thiện 1,5 điểm trên chỉ số CLIP và sự khác biệt về độ chính xác tạo ra khoảng 10% so với các phương pháp tinh chỉnh hiện có.

Tiếp theo, hình ảnh sau minh họa so sánh định tính của khung HD-Painter với các khung tạo ảnh khác. Như có thể thấy, các mô hình cơ sở khác либо tái tạo các vùng bị thiếu trong ảnh như một sự tiếp tục của các đối tượng trong vùng đã biết, bỏ qua lời nhắc, hoặc tạo ra một nền. Mặt khác, khung HD-Painter có thể tạo ra các đối tượng mục tiêu thành công nhờ vào việc triển khai các thành phần PAIntA và RASG trong kiến trúc của nó.

Suy nghĩ cuối cùng

Trong bài viết này, chúng ta đã thảo luận về HD-Painter, một phương pháp tạo ảnh từ văn bản độ phân giải cao không cần đào tạo, giải quyết các thách thức mà các khung tạo ảnh hiện có gặp phải, bao gồm bỏ qua lời nhắc và sự thống trị của đối tượng gần đó và nền. Khung HD-Painter triển khai một lớp Prompt Aware Introverted Attention hoặc PAIntA, sử dụng thông tin lời nhắc để tăng cường điểm tự chú ý, dẫn đến việc tạo ra sự liên kết văn bản tốt hơn.

Để cải thiện sự nhất quán của lời nhắc thậm chí còn hơn, mô hình HD-Painter giới thiệu một phương pháp Reweighting Attention Score Guidance hoặc RASG, tích hợp một chiến lược lấy mẫu hậu giám sát vào dạng chung của thành phần DDIM một cách mượt mà, để ngăn chặn sự thay đổi phân phối ngoài phạm vi. Hơn nữa, khung HD-Painter giới thiệu một kỹ thuật siêu phân giải chuyên dụng cho việc tạo ảnh, cho phép nó mở rộng đến các quy mô lớn hơn và hoàn thành các vùng bị thiếu trong ảnh với độ phân giải lên đến 2K.

Related Topics:HD-Painter inpainting PAIntA