Kết nối với chúng tôi

HD-Painter: Vẽ hình ảnh hướng dẫn bằng văn bản có độ phân giải cao với các mô hình khuếch tán

Trí tuệ nhân tạo

HD-Painter: Vẽ hình ảnh hướng dẫn bằng văn bản có độ phân giải cao với các mô hình khuếch tán

mm
HD-Painter : Vẽ hình ảnh hướng dẫn bằng văn bản có độ phân giải cao với các mô hình khuếch tán

mô hình khuếch tán chắc chắn đã cách mạng hóa ngành công nghiệp AI và ML, với các ứng dụng của chúng trong thời gian thực trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta. Sau khi các mô hình chuyển văn bản thành hình ảnh thể hiện khả năng vượt trội của mình, các kỹ thuật xử lý hình ảnh dựa trên sự khuếch tán, chẳng hạn như tạo ra có thể điều khiển, tổng hợp hình ảnh chuyên biệt và được cá nhân hóa, chỉnh sửa hình ảnh ở cấp độ đối tượng, các biến thể có điều kiện nhanh chóng và chỉnh sửa, đã nổi lên như các chủ đề nghiên cứu nóng do cho các ứng dụng của họ trong ngành thị giác máy tính.

Tuy nhiên, mặc dù có khả năng ấn tượng và kết quả đặc biệt, các khung chuyển văn bản thành hình ảnh, đặc biệt là các khung vẽ chuyển văn bản thành hình ảnh, vẫn có những lĩnh vực tiềm năng để phát triển. Chúng bao gồm khả năng hiểu được các cảnh tổng thể, đặc biệt là khi khử nhiễu hình ảnh ở các dấu thời gian có độ khuếch tán cao. Để giải quyết vấn đề này, các nhà nghiên cứu đã giới thiệu HD-Painter, một khung hoàn toàn không cần đào tạo, tuân thủ chính xác các hướng dẫn nhanh chóng và chia tỷ lệ để vẽ hình ảnh có độ phân giải cao một cách mạch lạc. Khung HD-Painter sử dụng lớp Chú ý hướng nội nhanh chóng (PAIntA), tận dụng thông tin kịp thời để nâng cao điểm tự chú ý, dẫn đến việc tạo căn chỉnh văn bản tốt hơn.

Để cải thiện hơn nữa tính mạch lạc của lời nhắc, mô hình HD-Painter giới thiệu phương pháp Hướng dẫn đánh giá lại điểm chú ý (RASG). Cách tiếp cận này tích hợp liền mạch chiến lược lấy mẫu hậu kiểm vào dạng chung của thành phần DDIM, ngăn chặn những thay đổi tiềm ẩn ngoài phân phối. Ngoài ra, khung HD-Painter có kỹ thuật siêu phân giải chuyên dụng được tùy chỉnh để inpainting, cho phép nó mở rộng đến quy mô lớn hơn và hoàn thành các vùng bị thiếu trong hình ảnh với độ phân giải lên tới 2K.

HD-Painter: Vẽ hình ảnh theo hướng dẫn bằng văn bản

Các mô hình chuyển văn bản thành hình ảnh thực sự đã là một chủ đề quan trọng trong ngành AI và ML trong những tháng gần đây, với các mô hình thể hiện khả năng thời gian thực ấn tượng trên nhiều ứng dụng thực tế khác nhau. Các mô hình tạo văn bản thành hình ảnh được đào tạo trước như DALL-E, Imagen và Stable Diffusion đã cho thấy sự phù hợp của chúng trong việc hoàn thiện hình ảnh bằng cách hợp nhất các vùng chưa được khử nhiễu (được tạo) với các vùng đã được khuếch tán đã biết trong quá trình khuếch tán ngược. Mặc dù tạo ra các kết quả đầu ra hài hòa và hấp dẫn về mặt trực quan, các mô hình hiện tại vẫn gặp khó khăn trong việc hiểu được bối cảnh toàn cầu, đặc biệt là trong quá trình khử nhiễu theo bước thời gian khuếch tán cao. Bằng cách sửa đổi các mô hình khuếch tán văn bản thành hình ảnh được đào tạo trước để kết hợp thông tin ngữ cảnh bổ sung, chúng có thể được tinh chỉnh để hoàn thành hình ảnh được hướng dẫn bằng văn bản.

Hơn nữa, trong các mô hình khuếch tán, việc vẽ nội dung theo hướng dẫn bằng văn bản và hoàn thiện hình ảnh theo hướng dẫn bằng văn bản là những lĩnh vực được các nhà nghiên cứu quan tâm chính. Sự quan tâm này được thúc đẩy bởi thực tế là các mô hình vẽ theo hướng dẫn bằng văn bản có thể tạo ra nội dung ở các vùng cụ thể của hình ảnh đầu vào dựa trên lời nhắc bằng văn bản, dẫn đến các ứng dụng tiềm năng như chỉnh sửa các vùng hình ảnh cụ thể, sửa đổi các thuộc tính chủ đề như màu sắc hoặc quần áo và thêm hoặc thay thế đồ vật. Tóm lại, các mô hình truyền bá văn bản thành hình ảnh gần đây đã đạt được thành công chưa từng có nhờ khả năng tạo hình ảnh thực tế và hấp dẫn đặc biệt của chúng.

Tuy nhiên, phần lớn các khuôn khổ hiện có đều thể hiện sự lơ là ngay lập tức trong hai tình huống. Đầu tiên là Sự thống trị nền tảng khi mô hình hoàn thành vùng chưa xác định bằng cách bỏ qua lời nhắc ở chế độ nền trong khi kịch bản thứ hai là sự thống trị của đối tượng lân cận khi mô hình truyền các đối tượng vùng đã biết đến vùng chưa xác định bằng cách sử dụng khả năng ngữ cảnh trực quan thay vì dấu nhắc đầu vào. Có khả năng là cả hai vấn đề này có thể là kết quả của khả năng diễn giải chính xác lời nhắc văn bản của vanilla inpainting hoặc trộn nó với thông tin theo ngữ cảnh thu được từ khu vực đã biết. 

Để giải quyết những rào cản này, khung HD-Painter giới thiệu lớp Chú ý hướng nội nhanh chóng hoặc lớp PAIntA, sử dụng thông tin kịp thời để nâng cao điểm tự chú ý, cuối cùng dẫn đến việc tạo căn chỉnh văn bản tốt hơn. PAIntA sử dụng điều hòa văn bản đã cho để nâng cao tự chú ý cho điểm với mục đích giảm tác động của thông tin liên quan không có dấu nhắc từ vùng hình ảnh đồng thời tăng sự đóng góp của các pixel đã biết được căn chỉnh theo dấu nhắc. Để nâng cao hơn nữa khả năng căn chỉnh văn bản của các kết quả được tạo ra, khung HD-Painter triển khai phương pháp hướng dẫn hậu kiểm nhằm tận dụng điểm số chú ý chéo. Tuy nhiên, việc triển khai cơ chế hướng dẫn hậu kiểm vani có thể gây ra sự dịch chuyển ngoài phân phối do thuật ngữ gradient bổ sung trong phương trình khuếch tán. Sự dịch chuyển ra khỏi phân phối cuối cùng sẽ dẫn đến sự suy giảm chất lượng của đầu ra được tạo ra. Để giải quyết rào cản này, khung HD-Painter triển khai Hướng dẫn đánh giá lại điểm chú ý hoặc RASG, một phương pháp tích hợp liền mạch chiến lược lấy mẫu hậu kiểm vào dạng chung của thành phần DDIM. Nó cho phép khung tạo ra các kết quả inpainting hợp lý về mặt trực quan bằng cách hướng mẫu tới các tiềm ẩn được căn chỉnh nhanh chóng và chứa chúng trong miền được đào tạo của chúng.

Bằng cách triển khai cả hai thành phần RASH và PAIntA trong kiến ​​trúc của nó, khung HD-Painter có lợi thế đáng kể so với các mô hình hiện có, bao gồm cả trạng thái hiện đại, inpainting và chuyển văn bản thành các mô hình khuếch tán hình ảnh vì nó quản lý để giải quyết vấn đề bỏ qua kịp thời hiện có. Hơn nữa, cả hai thành phần RASH và PAIntA đều cung cấp chức năng cắm và chạy, cho phép chúng tương thích với các mô hình sơn nền khuếch tán để giải quyết các thách thức nêu trên. Hơn nữa, bằng cách triển khai công nghệ trộn lặp theo thời gian và bằng cách tận dụng khả năng của mô hình khuếch tán độ phân giải cao, đường dẫn HD-Painter có thể hoạt động hiệu quả với độ phân giải lên tới 2K. 

Tóm lại, HD-Painter đặt mục tiêu thực hiện những đóng góp sau trong lĩnh vực này:

  1. Nó nhằm mục đích giải quyết vấn đề bỏ qua ngay lập tức đối với nền và sự thống trị của đối tượng lân cận mà các khung vẽ hình ảnh hướng dẫn bằng văn bản gặp phải bằng cách triển khai lớp Chú ý hướng nội hoặc PAIntA nhanh chóng trong kiến ​​​​trúc của nó. 
  2. Nó nhằm mục đích cải thiện việc căn chỉnh văn bản của đầu ra bằng cách triển khai Hướng dẫn Điểm Chú ý Trọng số lại hoặc lớp RASG trong kiến ​​trúc của nó để cho phép khung HD-Painter thực hiện lấy mẫu có hướng dẫn hậu kiểm trong khi ngăn chặn phân phối theo ca. 
  3. Để thiết kế một quy trình hoàn thiện hình ảnh được hướng dẫn bằng văn bản mà không cần đào tạo hiệu quả, có khả năng vượt trội so với các khung công nghệ hiện đại và sử dụng khung siêu phân giải chuyên dụng đơn giản nhưng hiệu quả để thực hiện việc vẽ hình ảnh được hướng dẫn bằng văn bản có độ phân giải lên tới 2K. 

HD-Painter: Phương pháp và Kiến trúc

Trước khi chúng ta xem xét kiến ​​trúc, điều quan trọng là phải hiểu ba khái niệm cơ bản tạo nên nền tảng của khung HD-Painter: Inpainting hình ảnh, Hướng dẫn hậu kỳ trong khung khuếch tán, Inpainting các khối kiến ​​trúc cụ thể. 

Inpainting trong hình ảnh là một phương pháp nhằm lấp đầy các vùng còn thiếu trong hình ảnh đồng thời đảm bảo sự hấp dẫn trực quan của hình ảnh được tạo ra. Các khung học sâu truyền thống đã triển khai các phương pháp sử dụng các vùng đã biết để truyền bá các tính năng sâu. Tuy nhiên, sự ra đời của các mô hình khuếch tán đã dẫn đến sự phát triển của các mô hình inpainting, đặc biệt là các khung inpainting hình ảnh hướng dẫn bằng văn bản. Theo truyền thống, mô hình khuếch tán văn bản sang hình ảnh được đào tạo trước sẽ thay thế vùng ẩn của vùng tiềm ẩn bằng cách sử dụng phiên bản nhiễu của vùng đã biết trong quá trình lấy mẫu. Mặc dù cách tiếp cận này có hiệu quả ở một mức độ nào đó nhưng nó làm giảm đáng kể chất lượng đầu ra được tạo ra do mạng khử nhiễu chỉ nhìn thấy phiên bản nhiễu của vùng đã biết. Để giải quyết trở ngại này, một số phương pháp nhằm mục đích tinh chỉnh mô hình văn bản được đào tạo trước thành hình ảnh để đạt được khả năng vẽ hình ảnh theo hướng dẫn bằng văn bản. Bằng cách triển khai phương pháp này, khung có thể tạo mặt nạ ngẫu nhiên thông qua ghép nối vì mô hình có thể điều chỉnh khung khử nhiễu trên vùng không được che. 

Tiếp theo, các mô hình học sâu truyền thống đã triển khai các lớp thiết kế đặc biệt để inpainting hiệu quả với một số khung có thể trích xuất thông tin hiệu quả và tạo ra hình ảnh hấp dẫn trực quan bằng cách giới thiệu các lớp chập đặc biệt để xử lý các vùng đã biết của hình ảnh. Một số khung thậm chí còn thêm lớp chú ý theo ngữ cảnh trong kiến ​​trúc của chúng để giảm bớt các yêu cầu tính toán nặng nề không mong muốn của tất cả mọi người đối với tất cả sự chú ý của bản thân để có được nội dung vẽ chất lượng cao. 

Cuối cùng, các phương pháp hướng dẫn hậu hoc là các phương pháp lấy mẫu khuếch tán ngược hướng dẫn dự đoán tiềm ẩn ở bước tiếp theo hướng tới mục tiêu giảm thiểu chức năng cụ thể. Các phương pháp hướng dẫn hậu kỳ giúp ích rất nhiều khi tạo ra nội dung trực quan, đặc biệt khi có thêm các ràng buộc. Tuy nhiên, các phương pháp hướng dẫn Post-hoc có một nhược điểm lớn: chúng được biết là dẫn đến suy giảm chất lượng hình ảnh do chúng có xu hướng dịch chuyển quá trình tạo tiềm ẩn theo độ dốc. 

Đến với kiến ​​trúc của HD-Painter, trước tiên, khung này hình thành vấn đề hoàn thiện hình ảnh được hướng dẫn bằng văn bản, sau đó giới thiệu hai mô hình khuếch tán là Inpainting ổn định và Khuếch tán ổn định. Sau đó, mô hình HD-Painter giới thiệu các khối PAIntA và RASG, và cuối cùng chúng ta đi đến kỹ thuật siêu phân giải dành riêng cho inpainting. 

Khuếch tán ổn định và Inpainting ổn định

Khuếch tán ổn định là mô hình khuếch tán hoạt động trong không gian tiềm ẩn của bộ mã hóa tự động. Để tổng hợp văn bản thành hình ảnh, khung Khuếch tán ổn định triển khai lời nhắc bằng văn bản để hướng dẫn quy trình. Chức năng hướng dẫn có cấu trúc tương tự như kiến ​​trúc UNet và các lớp chú ý chéo điều chỉnh nó dựa trên các lời nhắc bằng văn bản. Hơn nữa, mô hình Khuếch tán ổn định có thể thực hiện việc vẽ hình ảnh với một số sửa đổi và tinh chỉnh. Để đạt được điều này, các đặc điểm của hình ảnh được che do bộ mã hóa tạo ra sẽ được ghép nối với mặt nạ nhị phân được thu nhỏ xuống mức tiềm ẩn. Tensor thu được sau đó được đưa vào kiến ​​trúc UNet để thu được nhiễu ước tính. Sau đó, khung này sẽ khởi tạo các bộ lọc tích chập mới được thêm vào bằng các số 0 trong khi phần còn lại của UNet được khởi tạo bằng cách sử dụng các điểm kiểm tra được đào tạo trước từ mô hình Khuếch tán ổn định. 

Hình trên thể hiện tổng quan về HD-Painter framework gồm hai giai đoạn. Ở giai đoạn đầu tiên, khung HD-Painter triển khai vẽ hình ảnh theo hướng dẫn bằng văn bản trong khi ở giai đoạn thứ hai, mô hình sẽ đưa ra độ phân giải siêu cụ thể của đầu ra. Để điền vào các vùng nhiệm vụ và duy trì sự nhất quán với lời nhắc đầu vào, mô hình này sử dụng mô hình khuếch tán inpainting được đào tạo trước, thay thế các lớp tự chú ý bằng các lớp PAIntA và triển khai cơ chế RASG để thực hiện quy trình khuếch tán ngược. Sau đó, mô hình sẽ giải mã giá trị tiềm ẩn ước tính cuối cùng dẫn đến hình ảnh không được vẽ. Sau đó, HD-Painter triển khai mô hình Khuếch tán siêu ổn định để vẽ vào hình ảnh có kích thước ban đầu và thực hiện quy trình khuếch tán ngược của khung Khuếch tán ổn định dựa trên hình ảnh đầu vào có độ phân giải thấp. Mô hình này kết hợp các dự đoán đã khử nhiễu với mã hóa của ảnh gốc sau mỗi bước trong vùng đã biết và rút ra dữ liệu tiềm ẩn tiếp theo. Cuối cùng, mô hình giải mã phần tiềm ẩn và thực hiện trộn Poisson để tránh các tạo tác biên. 

Nhắc nhở nhận thức sự chú ý hướng nội hoặc PAIntA

Các mô hình inpainting hiện tại như Stable Inpainting có xu hướng dựa nhiều hơn vào bối cảnh trực quan xung quanh khu vực inpainting và bỏ qua lời nhắc của người dùng đầu vào. Trên cơ sở trải nghiệm người dùng, vấn đề này có thể được phân loại thành hai loại: sự thống trị của đối tượng lân cận và sự thống trị của nền. Vấn đề về sự thống trị của ngữ cảnh trực quan so với các lời nhắc đầu vào có thể là kết quả của tính chất không gian duy nhất và không có lời nhắc của các lớp tự chú ý. Để giải quyết vấn đề này, khung HD-Painter giới thiệu Nhắc nhở chú ý hướng nội hoặc PAIntA sử dụng ma trận chú ý chéo và mặt nạ nội bộ để kiểm soát đầu ra của các lớp tự chú ý trong vùng không xác định. 

Thành phần Nhắc nhở chú ý hướng nội trước tiên áp dụng các lớp chiếu để lấy khóa, giá trị và truy vấn cùng với ma trận tương tự. Sau đó, mô hình sẽ điều chỉnh điểm chú ý của các pixel đã biết để giảm thiểu ảnh hưởng mạnh mẽ của vùng đã biết so với vùng chưa biết và xác định ma trận tương tự mới bằng cách tận dụng lời nhắc văn bản. 

Hướng dẫn Trọng số lại Điểm Chú ý hoặc RASG

Khung HD-Painter áp dụng phương pháp hướng dẫn lấy mẫu hậu kiểm để nâng cao hơn nữa sự liên kết giữa thế hệ với các lời nhắc bằng văn bản. Cùng với chức năng khách quan, phương pháp hướng dẫn lấy mẫu hậu kiểm nhằm mục đích tận dụng các thuộc tính phân đoạn từ vựng mở của các lớp chú ý chéo. Tuy nhiên, cách tiếp cận hướng dẫn hậu nghiệm vani này có khả năng thay đổi miền khuếch tán tiềm ẩn có thể làm giảm chất lượng của hình ảnh được tạo ra. Để giải quyết vấn đề này, mô hình HD-Painter triển khai Cơ chế hướng dẫn lại điểm chú ý hoặc cơ chế RASG giới thiệu cơ chế cân nhắc lại độ dốc dẫn đến bảo tồn miền tiềm ẩn. 

HD-Painter : Thử nghiệm và kết quả

Để phân tích hiệu suất của nó, khung HD-Painter được so sánh với các mô hình hiện đại nhất bao gồm Stable Inpainting, GLIDE và BLD hoặc Blended Latent Diffusion trên 10000 mẫu ngẫu nhiên trong đó lời nhắc được chọn làm nhãn của mặt nạ phiên bản đã chọn. 

Như có thể thấy, khung HD-Painter vượt trội hơn các khung hiện có trên ba chỉ số khác nhau với mức chênh lệch đáng kể, đặc biệt là cải thiện 1.5 điểm trên chỉ số CLIP và chênh lệch về điểm chính xác được tạo ra khoảng 10% so với các phương pháp hiện đại khác . 

Tiếp theo, hình dưới đây thể hiện sự so sánh định tính của khung HD-Painter với các khung inpainting khác. Như có thể quan sát, các mô hình cơ sở khác hoặc tái tạo lại các vùng bị thiếu trong ảnh dưới dạng phần tiếp theo của các đối tượng trong vùng đã biết mà không quan tâm đến lời nhắc hoặc chúng tạo ra nền. Mặt khác, khung HD-Painter có thể tạo thành công các đối tượng mục tiêu nhờ triển khai các thành phần PAIntA và RASG trong kiến ​​trúc của nó. 

.

Trong bài viết này, chúng ta đã nói về HD-Painter, một phương pháp vẽ tranh có độ phân giải cao được hướng dẫn bằng văn bản miễn phí đào tạo nhằm giải quyết những thách thức mà các hệ thống vẽ tranh hiện có gặp phải, bao gồm cả việc bỏ qua nhanh chóng cũng như sự thống trị của đối tượng ở gần và đối tượng nền. Khung HD-Painter triển khai lớp PAIntA hoặc lớp Chú ý hướng nội nhận biết nhanh chóng, sử dụng thông tin kịp thời để nâng cao điểm tự chú ý, cuối cùng dẫn đến việc tạo căn chỉnh văn bản tốt hơn. 

Để cải thiện tính mạch lạc của lời nhắc hơn nữa, mô hình HD-Painter giới thiệu Hướng dẫn đánh giá lại điểm chú ý hoặc phương pháp tiếp cận RASG tích hợp chiến lược lấy mẫu hậu kiểm vào dạng chung của thành phần DDIM một cách liền mạch để ngăn chặn những thay đổi tiềm ẩn ngoài phân phối. Hơn nữa, khung HD-Painter giới thiệu một kỹ thuật siêu phân giải chuyên dụng được tùy chỉnh để inpainting, dẫn đến mở rộng sang tỷ lệ lớn hơn và cho phép khung HD-Painter hoàn thành các vùng còn thiếu trong hình ảnh với độ phân giải lên tới 2K.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.