Trí tuệ nhân tạo

Kiểu tức thì: Bảo toàn kiểu trong quá trình tạo văn bản thành hình ảnh

Được phát hành

3 tuần trước

19 Tháng Tư, 2024

Trong vài năm qua, các mô hình khuếch tán dựa trên điều chỉnh đã chứng tỏ sự tiến bộ đáng kể trên một loạt các nhiệm vụ tùy chỉnh và cá nhân hóa hình ảnh. Tuy nhiên, bất chấp tiềm năng của chúng, các mô hình khuếch tán dựa trên điều chỉnh hiện tại vẫn tiếp tục đối mặt với nhiều thách thức phức tạp trong việc tạo ra và tạo ra các hình ảnh nhất quán về phong cách và có thể có ba lý do tương tự. Đầu tiên, khái niệm về phong cách vẫn chưa được xác định và xác định rộng rãi, và bao gồm sự kết hợp của các yếu tố bao gồm bầu không khí, cấu trúc, thiết kế, chất liệu, màu sắc, v.v. Các phương pháp dựa trên đảo ngược thứ hai dễ bị xuống cấp về kiểu dáng, dẫn đến thường xuyên mất đi các chi tiết mịn. Cuối cùng, các phương pháp tiếp cận dựa trên bộ điều hợp yêu cầu điều chỉnh trọng lượng thường xuyên cho từng hình ảnh tham chiếu để duy trì sự cân bằng giữa khả năng kiểm soát văn bản và cường độ kiểu.

Hơn nữa, mục tiêu chính của phần lớn các phương pháp chuyển kiểu hoặc tạo hình ảnh kiểu là sử dụng hình ảnh tham chiếu và áp dụng kiểu cụ thể của nó từ một tập hợp con hoặc hình ảnh tham chiếu nhất định cho hình ảnh nội dung đích. Tuy nhiên, chính số lượng lớn các thuộc tính của phong cách đã gây khó khăn cho các nhà nghiên cứu trong việc thu thập các bộ dữ liệu cách điệu, thể hiện phong cách một cách chính xác và đánh giá sự thành công của việc chuyển giao. Trước đây, các mô hình và khung xử lý quy trình khuếch tán dựa trên tinh chỉnh, tinh chỉnh tập dữ liệu hình ảnh có chung phong cách, một quy trình vừa tốn thời gian vừa có khả năng khái quát hạn chế trong các tác vụ trong thế giới thực vì nó khó để tập hợp một tập hợp con các hình ảnh có cùng phong cách hoặc gần giống nhau.

Trong bài viết này, chúng ta sẽ nói về InstantStyle, một framework được thiết kế nhằm mục đích giải quyết các vấn đề mà các mô hình khuếch tán dựa trên điều chỉnh hiện tại gặp phải để tạo và tùy chỉnh hình ảnh. Chúng ta sẽ nói về hai chiến lược chính được triển khai bởi khung InstantStyle:

Một cách tiếp cận đơn giản nhưng hiệu quả để tách phong cách và nội dung khỏi các hình ảnh tham chiếu trong không gian đặc trưng, được dự đoán dựa trên giả định rằng các đặc điểm trong cùng một không gian đặc trưng có thể được thêm vào hoặc bớt đi với nhau.
Ngăn chặn rò rỉ kiểu bằng cách đưa các tính năng hình ảnh tham chiếu riêng vào các khối dành riêng cho kiểu và cố tình tránh nhu cầu sử dụng các trọng lượng cồng kềnh để tinh chỉnh, thường mô tả các thiết kế nặng về tham số hơn.

Bài viết này nhằm mục đích trình bày sâu về khung InstantStyle và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khung cùng với sự so sánh của nó với các khung hiện đại. Chúng ta cũng sẽ nói về cách khung InstantStyle thể hiện kết quả cách điệu hình ảnh đáng chú ý và tạo ra sự cân bằng tối ưu giữa khả năng kiểm soát các thành phần văn bản và cường độ của phong cách. Vậy hãy bắt đầu.

InstantStyle: Bảo toàn kiểu trong quá trình tạo văn bản thành hình ảnh

Các khung AI tạo văn bản dựa trên sự khuếch tán sang hình ảnh đã đạt được thành công đáng kể và đáng chú ý trên một loạt các nhiệm vụ tùy chỉnh và cá nhân hóa, đặc biệt là trong các nhiệm vụ tạo hình ảnh nhất quán bao gồm tùy chỉnh đối tượng, bảo quản hình ảnh và chuyển kiểu. Tuy nhiên, bất chấp những thành công gần đây và sự gia tăng hiệu suất, việc chuyển đổi phong cách vẫn là một nhiệm vụ đầy thách thức đối với các nhà nghiên cứu do tính chất không xác định và không xác định của phong cách, thường bao gồm nhiều yếu tố khác nhau bao gồm bầu không khí, cấu trúc, thiết kế, chất liệu, màu sắc, v.v. Như đã nói, mục tiêu chính của việc tạo hình ảnh cách điệu hoặc chuyển kiểu là áp dụng kiểu cụ thể từ một hình ảnh tham chiếu nhất định hoặc một tập hợp con hình ảnh tham chiếu đến hình ảnh nội dung mục tiêu. Tuy nhiên, số lượng lớn các thuộc tính của phong cách khiến công việc của các nhà nghiên cứu gặp khó khăn trong việc thu thập các tập dữ liệu cách điệu, thể hiện phong cách một cách chính xác và đánh giá sự thành công của việc chuyển giao. Trước đây, các mô hình và khung xử lý quy trình khuếch tán dựa trên tinh chỉnh, tinh chỉnh tập dữ liệu hình ảnh có chung phong cách, một quy trình vừa tốn thời gian vừa có khả năng khái quát hạn chế trong các tác vụ trong thế giới thực vì nó khó để tập hợp một tập hợp con các hình ảnh có cùng phong cách hoặc gần giống nhau.

Với những thách thức mà cách tiếp cận hiện tại gặp phải, các nhà nghiên cứu đã quan tâm đến việc phát triển các phương pháp tinh chỉnh để chuyển giao phong cách hoặc tạo hình ảnh cách điệuvà các khung này có thể được chia thành hai nhóm khác nhau:

Phương pháp tiếp cận không có bộ chuyển đổi: Các phương pháp tiếp cận và khung không cần bộ điều hợp tận dụng sức mạnh của sự tự chú ý trong quá trình khuếch tán và bằng cách triển khai thao tác chú ý chung, các mô hình này có khả năng trích xuất trực tiếp các tính năng thiết yếu bao gồm khóa và giá trị từ một hình ảnh kiểu tham chiếu nhất định.

Phương pháp tiếp cận dựa trên bộ chuyển đổi: Mặt khác, các phương pháp và khung dựa trên bộ điều hợp kết hợp một mô hình nhẹ được thiết kế để trích xuất các biểu diễn hình ảnh chi tiết từ các hình ảnh kiểu tham chiếu. Sau đó, khung này sẽ tích hợp các cách trình bày này vào quá trình phổ biến một cách khéo léo bằng cách sử dụng các cơ chế chú ý chéo. Mục tiêu chính của quá trình tích hợp là hướng dẫn quá trình tạo và đảm bảo rằng hình ảnh thu được được căn chỉnh theo các sắc thái phong cách mong muốn của hình ảnh tham chiếu.

Tuy nhiên, bất chấp những hứa hẹn, các phương pháp không điều chỉnh thường gặp phải một số thách thức. Đầu tiên, cách tiếp cận không cần bộ điều hợp yêu cầu trao đổi khóa và giá trị trong các lớp tự chú ý, đồng thời bắt trước các ma trận khóa và giá trị bắt nguồn từ hình ảnh kiểu tham chiếu. Khi được triển khai trên các hình ảnh tự nhiên, phương pháp không cần bộ chuyển đổi yêu cầu đảo ngược hình ảnh trở lại nhiễu tiềm ẩn bằng cách sử dụng các kỹ thuật như DDIM hoặc Đảo ngược mô hình tiềm ẩn khuếch tán khử nhiễu. Tuy nhiên, việc sử dụng DDIM hoặc các phương pháp đảo ngược khác có thể làm mất các chi tiết nhỏ như màu sắc và kết cấu, do đó làm giảm thông tin về kiểu dáng trong hình ảnh được tạo ra. Hơn nữa, bước bổ sung được đưa ra bởi các phương pháp này là một quá trình tốn thời gian và có thể gây ra những hạn chế đáng kể trong các ứng dụng thực tế. Mặt khác, thách thức chính đối với các phương pháp dựa trên bộ chuyển đổi nằm ở việc đạt được sự cân bằng phù hợp giữa rò rỉ ngữ cảnh và cường độ kiểu dáng. Rò rỉ nội dung xảy ra khi sự gia tăng cường độ kiểu dáng dẫn đến sự xuất hiện của các thành phần không phải kiểu dáng từ hình ảnh tham chiếu trong đầu ra được tạo, với điểm khó khăn chính là tách kiểu khỏi nội dung trong hình ảnh tham chiếu một cách hiệu quả. Để giải quyết vấn đề này, một số khung xây dựng các tập dữ liệu được ghép nối đại diện cho cùng một đối tượng theo các kiểu khác nhau, tạo điều kiện thuận lợi cho việc trích xuất biểu diễn nội dung và các kiểu tách rời. Tuy nhiên, do sự thể hiện kiểu dáng vốn không được xác định, nhiệm vụ tạo các bộ dữ liệu ghép nối quy mô lớn bị hạn chế về tính đa dạng của các kiểu mà nó có thể nắm bắt và đây cũng là một quá trình sử dụng nhiều tài nguyên.

Để giải quyết những hạn chế này, khung InstantStyle được giới thiệu, đây là một cơ chế không cần điều chỉnh mới dựa trên các phương pháp dựa trên bộ điều hợp hiện có với khả năng tích hợp liền mạch với các phương pháp chèn dựa trên sự chú ý khác và đạt được sự tách rời nội dung và phong cách một cách hiệu quả. Hơn nữa, khung InstantStyle không chỉ giới thiệu một mà là hai cách hiệu quả để hoàn thành việc tách phong cách và nội dung, đạt được quá trình di chuyển kiểu tốt hơn mà không cần phải giới thiệu các phương pháp bổ sung để đạt được việc tách rời hoặc xây dựng các tập dữ liệu được ghép nối.

Hơn nữa, các khung dựa trên bộ điều hợp trước đây đã được sử dụng rộng rãi trong các phương pháp dựa trên CLIP như một trình trích xuất đặc điểm hình ảnh, một số khung đã khám phá khả năng triển khai tách tính năng trong không gian đối tượng và khi so sánh với việc không xác định kiểu, sẽ dễ dàng hơn để mô tả nội dung bằng văn bản. Vì hình ảnh và văn bản chia sẻ một không gian đối tượng trong các phương pháp dựa trên CLIP, nên một thao tác trừ đơn giản đối với các đối tượng văn bản ngữ cảnh và đối tượng hình ảnh có thể làm giảm đáng kể việc rò rỉ nội dung. Hơn nữa, trong phần lớn mô hình khuếch tán, có một lớp cụ thể trong kiến trúc của nó có nhiệm vụ đưa thông tin kiểu dáng và hoàn thành việc tách nội dung và kiểu dáng bằng cách chỉ đưa các tính năng hình ảnh vào các khối kiểu cụ thể. Bằng cách triển khai hai chiến lược đơn giản này, khung InstantStyle có thể giải quyết các vấn đề rò rỉ nội dung mà phần lớn các khung hiện có gặp phải trong khi vẫn duy trì sức mạnh của phong cách.

Tóm lại, khung InstantStyle sử dụng hai cơ chế đơn giản, dễ hiểu nhưng hiệu quả để đạt được sự tách biệt hiệu quả giữa nội dung và phong cách khỏi các hình ảnh tham chiếu. Khung Kiểu tức thì là một cách tiếp cận độc lập và không cần điều chỉnh theo mô hình, thể hiện hiệu suất vượt trội trong các tác vụ chuyển kiểu có tiềm năng rất lớn cho các tác vụ xuôi dòng.

Phong cách tức thì: Phương pháp và kiến trúc

Như đã được chứng minh bằng các phương pháp trước đây, có sự cân bằng trong việc đưa các điều kiện kiểu dáng vào các mô hình khuếch tán không điều chỉnh. Nếu cường độ của điều kiện hình ảnh quá cao thì có thể dẫn đến rò rỉ nội dung, trong khi đó nếu cường độ của điều kiện hình ảnh giảm quá thấp thì kiểu dáng có thể không đủ rõ ràng. Lý do chính đằng sau quan sát này là trong một hình ảnh, phong cách và nội dung được kết hợp với nhau và do các thuộc tính phong cách vốn có không xác định nên rất khó để tách rời phong cách và mục đích. Do đó, trọng lượng tỉ mỉ thường được điều chỉnh cho từng hình ảnh tham chiếu nhằm cố gắng cân bằng giữa khả năng kiểm soát văn bản và độ mạnh của phong cách. Hơn nữa, đối với một hình ảnh tham chiếu đầu vào nhất định và mô tả văn bản tương ứng của nó trong các phương pháp dựa trên đảo ngược, các phương pháp đảo ngược như DDIM được áp dụng trên hình ảnh để có được quỹ đạo khuếch tán ngược, một quá trình gần đúng với phương trình đảo ngược để biến hình ảnh thành một hình ảnh tiềm ẩn. đại diện tiếng ồn. Dựa trên cơ sở tương tự và bắt đầu từ quỹ đạo khuếch tán ngược cùng với một loạt lời nhắc mới, các phương pháp này tạo ra nội dung mới với phong cách phù hợp với đầu vào. Tuy nhiên, như thể hiện trong hình dưới đây, phương pháp đảo ngược DDIM cho ảnh thực thường không ổn định vì nó dựa vào các giả định tuyến tính hóa cục bộ, dẫn đến việc truyền lỗi và dẫn đến mất nội dung và tái tạo hình ảnh không chính xác.

Về phương pháp luận, thay vì sử dụng các chiến lược phức tạp để tách rời nội dung và phong cách khỏi hình ảnh, khung Kiểu tức thì sử dụng cách tiếp cận đơn giản nhất để đạt được hiệu suất tương tự. Khi so sánh với các thuộc tính kiểu chưa được xác định trước, nội dung có thể được biểu thị bằng văn bản tự nhiên, cho phép khung Kiểu tức thì sử dụng bộ mã hóa văn bản từ CLIP để trích xuất các đặc điểm của văn bản nội dung dưới dạng trình bày ngữ cảnh. Đồng thời, khung Instant-Style triển khai bộ mã hóa hình ảnh CLIP để trích xuất các đặc điểm của hình ảnh tham chiếu. Tận dụng đặc tính của các tính năng toàn cầu CLIP và loại trừ các tính năng văn bản nội dung khỏi các tính năng hình ảnh, khung Kiểu tức thì có thể tách rời phong cách và nội dung một cách rõ ràng. Mặc dù là một chiến lược đơn giản nhưng nó giúp framework Instant-Style khá hiệu quả trong việc hạn chế rò rỉ nội dung ở mức tối thiểu.

Hơn nữa, mỗi lớp trong mạng sâu chịu trách nhiệm thu thập thông tin ngữ nghĩa khác nhau và quan sát chính từ các mô hình trước đó là tồn tại hai lớp chú ý chịu trách nhiệm xử lý kiểu. up Cụ thể, đó là các lớp Blocks.0.attentions.1 và Down Blocks.2.attentions.1 chịu trách nhiệm ghi lại phong cách như màu sắc, chất liệu, bầu không khí và lớp bố cục không gian lần lượt ghi lại cấu trúc và bố cục. Khung Kiểu tức thì sử dụng các lớp này một cách ngầm định để trích xuất thông tin về kiểu và ngăn chặn rò rỉ nội dung mà không làm mất đi sức mạnh của kiểu. Chiến lược này đơn giản nhưng hiệu quả vì mô hình đã định vị các khối kiểu có thể đưa các đặc điểm hình ảnh vào các khối này để đạt được sự chuyển giao kiểu liền mạch. Hơn nữa, do mô hình giảm đáng kể số lượng tham số của bộ điều hợp nên khả năng kiểm soát văn bản của khung được nâng cao và cơ chế này cũng có thể áp dụng cho các mô hình chèn tính năng dựa trên sự chú ý khác để chỉnh sửa và các tác vụ khác.

Instant-Style : Thử nghiệm và kết quả

Khung Instant-Style được triển khai trên khung Stable Diffusion XL và sử dụng bộ điều hợp IR được đào tạo trước thường được sử dụng làm mẫu để xác thực phương pháp của nó và tắt tiếng tất cả các khối ngoại trừ các khối kiểu cho các đặc điểm hình ảnh. Mô hình Kiểu tức thì cũng huấn luyện bộ điều hợp IR trên 4 triệu tập dữ liệu ghép nối hình ảnh văn bản quy mô lớn từ đầu và thay vì huấn luyện tất cả các khối, chỉ cập nhật các khối kiểu.

Để thực hiện khả năng khái quát hóa và độ bền vững của mình, khung Phong cách tức thì tiến hành nhiều thử nghiệm chuyển giao phong cách với nhiều phong cách khác nhau trên các nội dung khác nhau và bạn có thể thấy kết quả trong các hình ảnh sau. Với một hình ảnh tham chiếu kiểu duy nhất cùng với các lời nhắc khác nhau, khung Kiểu tức thì mang đến chất lượng cao, phong cách nhất quán thế hệ hình ảnh.

Hơn nữa, do mô hình chỉ đưa thông tin hình ảnh vào các khối kiểu nên nó có thể giảm thiểu đáng kể vấn đề rò rỉ nội dung và do đó không cần thực hiện điều chỉnh trọng lượng.

Tiếp theo, khung Kiểu tức thì cũng áp dụng kiến trúc ControlNet để đạt được sự cách điệu dựa trên hình ảnh với khả năng kiểm soát không gian và kết quả được thể hiện trong hình ảnh sau.

Khi so sánh với các phương pháp tiên tiến trước đây bao gồm StyleAlign, B-LoRA, Hoán đổi Tự chú ý và Bộ điều hợp IP, khung Kiểu tức thì thể hiện hiệu ứng hình ảnh tốt nhất.

Kết luận:

Trong bài viết này, chúng ta đã nói về Instant-Style, một khuôn khổ chung sử dụng hai chiến lược đơn giản nhưng hiệu quả để đạt được sự tách biệt hiệu quả giữa nội dung và phong cách khỏi các hình ảnh tham chiếu. Khung InstantStyle được thiết kế với mục đích giải quyết các vấn đề mà các mô hình khuếch tán dựa trên điều chỉnh hiện tại gặp phải để tạo và tùy chỉnh hình ảnh. Khung Kiểu tức thì triển khai hai chiến lược quan trọng: Một cách tiếp cận đơn giản nhưng hiệu quả để tách phong cách và nội dung khỏi các hình ảnh tham chiếu trong không gian đối tượng, được dự đoán dựa trên giả định rằng các đối tượng trong cùng một không gian đối tượng có thể được thêm vào hoặc bớt đi với nhau. Thứ hai, ngăn chặn rò rỉ kiểu bằng cách đưa các tính năng hình ảnh tham chiếu riêng vào các khối dành riêng cho kiểu và cố tình tránh nhu cầu sử dụng các trọng lượng cồng kềnh để tinh chỉnh, thường mô tả các thiết kế nặng về tham số hơn.

Chủ đề liên quan:trí tuệ nhân tạo Tầm nhìn máy tính mô hình khuếch tán ai chung chung thế hệ hình ảnh Phong cách tức thì InstantStyle

10 điểm rút ra hàng đầu từ Báo cáo Chỉ số AI năm 2024 của Stanford

Đừng bỏ lỡ

Sự trỗi dậy của các kỹ sư phần mềm AI: SWE-Agent, Devin AI và tương lai của mã hóa

Kunal Kejriwal

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.