Góc nhìn Anderson
Cải thiện Độ chính xác của Chỉnh sửa Hình ảnh AI

Mặc dù mô hình khuếch tán tiềm ẩn (LDM) Firefly của Adobe được coi là một trong những mô hình tốt nhất hiện có, nhưng người dùng Photoshop đã thử các tính năng tạo của nó sẽ nhận thấy rằng nó không thể dễ dàng chỉnh sửa hình ảnh hiện có – thay vào đó, nó hoàn toàn thay thế khu vực được chọn bởi người dùng bằng hình ảnh dựa trên lời nhắc văn bản của người dùng (mặc dù Firefly có khả năng tích hợp phần tạo ra vào ngữ cảnh của hình ảnh).
Trong phiên bản beta hiện tại, Photoshop có thể ít nhất kết hợp một hình ảnh tham chiếu như một phần của lời nhắc hình ảnh, điều này giúp sản phẩm hàng đầu của Adobe bắt kịp với loại chức năng mà người dùng Stable Diffusion đã tận hưởng trong hơn hai năm, nhờ vào các khung thứ ba như Controlnet:

Phiên bản beta hiện tại của Adobe Photoshop cho phép sử dụng hình ảnh tham chiếu khi tạo nội dung mới bên trong một lựa chọn – mặc dù nó là một vấn đề may mắn tại thời điểm này.
Điều này minh họa một vấn đề mở trong nghiên cứu tổng hợp hình ảnh – khó khăn mà các mô hình khuếch tán gặp phải khi chỉnh sửa hình ảnh hiện có mà không thực hiện một ‘tái tưởng tượng’ toàn diện của lựa chọn được chỉ định bởi người dùng.

Mặc dù việc chỉnh sửa dựa trên khuếch tán này tuân theo lời nhắc của người dùng, nhưng nó hoàn toàn tái tạo lại chủ đề nguồn mà không xem xét hình ảnh gốc (ngoài việc trộn kết hợp với môi trường). Source: https://arxiv.org/pdf/2502.20376
Vấn đề này xảy ra vì LDM tạo ra hình ảnh thông qua việc làm mờ lặp đi lặp lại, nơi mỗi giai đoạn của quá trình được điều kiện bởi lời nhắc văn bản được cung cấp bởi người dùng. Với nội dung lời nhắc văn bản được chuyển đổi thành các token nhúng, và với một mô hình quy mô lớn như Stable Diffusion hoặc Flux chứa hàng trăm nghìn (hoặc hàng triệu) token nhúng gần giống với lời nhắc, quá trình này có một phân bố có điều kiện tính toán để hướng tới; và mỗi bước được thực hiện là một bước tiến tới ‘mục tiêu phân bố có điều kiện’ này.
Vì vậy, đó là văn bản sang hình ảnh – một kịch bản mà người dùng ‘hy vọng cho điều tốt nhất’, vì không có cách nào để biết chính xác hình ảnh tạo ra sẽ như thế nào.
Thay vào đó, nhiều người đã cố gắng sử dụng khả năng tạo ra mạnh mẽ của LDM để chỉnh sửa hình ảnh hiện có – nhưng điều này đòi hỏi một sự cân bằng giữa tính trung thực và tính linh hoạt.
Khi một hình ảnh được chiếu vào không gian tiềm ẩn của mô hình bằng các phương pháp như đảo ngược DDIM, mục tiêu là phục hồi hình ảnh gốc càng chính xác càng tốt trong khi vẫn cho phép thực hiện các chỉnh sửa có ý nghĩa.

Giống như nhiều khung chỉnh sửa hình ảnh dựa trên khuếch tán được đề xuất trong những năm gần đây, kiến trúc Renoise có khó khăn trong việc thực hiện bất kỳ thay đổi thực sự nào đối với ngoại hình của hình ảnh, với chỉ một dấu hiệu sơ bộ của một chiếc nơ xuất hiện ở gốc cổ của con mèo.
Mặt khác, nếu quá trình ưu tiên tính chỉnh sửa, mô hình sẽ giảm bớt sự gắn kết với hình ảnh gốc, làm cho nó dễ dàng hơn để giới thiệu các thay đổi – nhưng với chi phí của sự nhất quán tổng thể với hình ảnh nguồn:

Nhiệm vụ thành công – nhưng đó là một biến đổi chứ không phải là một điều chỉnh, đối với hầu hết các khung chỉnh sửa hình ảnh dựa trên AI.
Kể từ khi đó là một vấn đề mà ngay cả các nguồn lực đáng kể của Adobe cũng đang vật lộn để giải quyết, thì chúng ta có thể xem xét hợp lý rằng thách thức này đáng chú ý và có thể không cho phép các giải pháp dễ dàng, nếu có.
Đảo ngược Siêu chặt
Do đó, các ví dụ trong một bài báo mới được phát hành tuần này đã thu hút sự chú ý của tôi, vì công việc này cung cấp một sự cải thiện đáng giá và đáng chú ý về trạng thái hiện tại của nghệ thuật trong lĩnh vực này, bằng cách chứng minh khả năng áp dụng các chỉnh sửa tinh tế và tinh vi cho hình ảnh được chiếu vào không gian tiềm ẩn của một mô hình – mà không có các chỉnh sửa này quá nhỏ hoặc quá áp đảo nội dung gốc trong hình ảnh nguồn:

Với Đảo ngược Siêu chặt được áp dụng cho các phương pháp đảo ngược hiện có, lựa chọn nguồn được xem xét một cách tinh vi hơn, và các biến đổi phù hợp với vật liệu gốc thay vì ghi đè lên chúng.
Các nhà nghiên cứu LDM và những người thực hành có thể nhận ra loại kết quả này, vì phần lớn nó có thể được tạo ra trong một quy trình phức tạp sử dụng các hệ thống bên ngoài như Controlnet và IP-Adapter.
Trên thực tế, phương pháp mới – được gọi là Đảo ngược Siêu chặt – thực sự tận dụng IP-Adapter, cùng với một mô hình dựa trên khuôn mặt chuyên dụng, cho các hình ảnh con người:

Từ bài báo gốc IP-Adapter năm 2023, các ví dụ về việc tạo ra các chỉnh sửa phù hợp cho vật liệu nguồn. Source: https://arxiv.org/pdf/2308.06721
Thành tựu quan trọng của Đảo ngược Siêu chặt, thì, là đã quy trình hóa các kỹ thuật phức tạp thành một mô-đun plug-in đơn giản có thể được áp dụng cho các hệ thống hiện có, bao gồm nhiều phân phối LDM phổ biến nhất.
Tự nhiên, điều này có nghĩa là Đảo ngược Siêu chặt (TI), giống như các hệ thống phụ trợ mà nó tận dụng, sử dụng hình ảnh nguồn như một yếu tố điều kiện cho phiên bản chỉnh sửa của nó, thay vì chỉ dựa vào lời nhắc văn bản chính xác:

Các ví dụ thêm về khả năng của Đảo ngược Siêu chặt trong việc áp dụng các chỉnh sửa tinh tế cho vật liệu nguồn.
Mặc dù các tác giả thừa nhận rằng phương pháp của họ không miễn nhiễm với sự căng thẳng truyền thống và liên tục giữa tính trung thực và tính chỉnh sửa trong các kỹ thuật chỉnh sửa hình ảnh dựa trên khuếch tán, họ báo cáo kết quả tốt nhất khi tiêm TI vào các hệ thống hiện có, so với hiệu suất cơ bản.
Công việc mới này được gọi là Đảo ngược Siêu chặt: Đảo ngược có điều kiện hình ảnh cho Chỉnh sửa Hình ảnh Thực, và đến từ năm nhà nghiên cứu trên khắp Đại học Tel Aviv và Snap Research.
Phương pháp
Ban đầu, một Mô hình Ngôn ngữ Lớn (LLM) được sử dụng để tạo ra một tập hợp các lời nhắc văn bản đa dạng từ đó một hình ảnh được tạo ra. Sau đó, đảo ngược DDIM được áp dụng cho mỗi hình ảnh với ba điều kiện văn bản: lời nhắc văn bản được sử dụng để tạo ra hình ảnh; một phiên bản rút gọn của cùng một; và một lời nhắc rỗng (trống).
Với tiếng ồn đảo ngược được trả về từ các quá trình này, hình ảnh được tạo lại với cùng một điều kiện, và không có hướng dẫn phân loại miễn phí (CFG).

Điểm đảo ngược DDIM trên các metric khác nhau với các thiết lập lời nhắc khác nhau.
Như chúng ta có thể thấy từ biểu đồ trên, các điểm trên các metric khác nhau được cải thiện với độ dài văn bản tăng. Các metric được sử dụng là Tỷ lệ Tín hiệu trên Nhiễu Đỉnh (PSNR); Khoảng cách L2; Chỉ số Tương đồng Cấu trúc (SSIM); và Tương đồng Vùng Hình ảnh Học được (LPIPS).
Hình ảnh-Ý thức
Hiệu quả, Đảo ngược Siêu chặt thay đổi cách một mô hình khuếch tán chỉnh sửa hình ảnh thực bằng cách điều kiện quá trình đảo ngược trên hình ảnh chính nó thay vì chỉ dựa vào lời nhắc văn bản.
Thông thường, việc đảo ngược một hình ảnh vào không gian tiếng ồn của mô hình khuếch tán đòi hỏi phải ước tính tiếng ồn ban đầu mà, khi làm giảm tiếng ồn, sẽ tái tạo lại hình ảnh đầu vào. Các phương pháp tiêu chuẩn sử dụng lời nhắc văn bản để hướng dẫn quá trình này; nhưng một lời nhắc không hoàn hảo có thể dẫn đến lỗi, mất chi tiết hoặc thay đổi cấu trúc.
Đảo ngược Siêu chặt thay vào đó sử dụng IP Adapter để cung cấp thông tin trực quan cho mô hình, để nó tái tạo lại hình ảnh với độ chính xác cao hơn, chuyển đổi hình ảnh nguồn thành token điều kiện, và chiếu chúng vào đường ống đảo ngược.
Các tham số này có thể chỉnh sửa: tăng ảnh hưởng của hình ảnh nguồn làm cho tái tạo gần như hoàn hảo, trong khi giảm nó cho phép thực hiện các thay đổi sáng tạo hơn. Điều này làm cho Đảo ngược Siêu chặt hữu ích cho cả các chỉnh sửa tinh tế, chẳng hạn như thay đổi màu sắc áo, hoặc các chỉnh sửa quan trọng hơn, chẳng hạn như trao đổi đối tượng – mà không có các tác dụng phụ phổ biến của các phương pháp đảo ngược khác, chẳng hạn như mất chi tiết tinh tế hoặc sai sót không mong muốn trong nội dung nền.
Các tác giả tuyên bố:
‘Chúng tôi lưu ý rằng Đảo ngược Siêu chặt có thể dễ dàng tích hợp với các phương pháp đảo ngược trước đó (ví dụ, Edit Friendly DDPM, ReNoise) bằng cách [thay thế lõi khuếch tán bản địa cho mô hình IP Adapter thay đổi], [và] đảo ngược Siêu chặt nhất quán cải thiện các phương pháp này về cả tái tạo và chỉnh sửa.’
Dữ liệu và Kiểm tra
Các nhà nghiên cứu đã đánh giá TI về khả năng tái tạo và chỉnh sửa hình ảnh thực thế. Tất cả các thí nghiệm sử dụng Stable Diffusion XL với một lịch trình DDIM như được nêu trong bài báo Stable Diffusion gốc; và tất cả các kiểm tra sử dụng 50 bước làm giảm tiếng ồn tại mức hướng dẫn mặc định là 7,5.
Để điều kiện hình ảnh, IP-Adapter-plus sdxl vit-h được sử dụng. Đối với các kiểm tra bước ít, các nhà nghiên cứu sử dụng SDXL-Turbo với một lịch trình Euler, và cũng thực hiện các thí nghiệm với FLUX.1-dev, điều kiện mô hình trong trường hợp sau trên PuLID-Flux, sử dụng RF-Inversion tại 28 bước.
PulID được sử dụng chỉ trong các trường hợp có khuôn mặt người, vì đây là lĩnh vực mà PulID được đào tạo để giải quyết – và trong khi việc dựa vào một hệ thống con chuyên dụng cho một loại lời nhắc có thể này có thể đáng chú ý, sự quan tâm không bình thường của chúng tôi trong việc tạo ra khuôn mặt người cho thấy rằng việc dựa vào các trọng số của một mô hình nền tảng như Stable Diffusion có thể không đủ để đáp ứng các tiêu chuẩn mà chúng tôi yêu cầu cho nhiệm vụ này.
Các kiểm tra tái tạo được thực hiện để đánh giá chất lượng và định lượng. Trong hình ảnh dưới đây, chúng ta thấy các ví dụ định lượng cho đảo ngược DDIM:

Kết quả định lượng cho đảo ngược DDIM. Mỗi hàng hiển thị một hình ảnh chi tiết cao bên cạnh các phiên bản tái tạo của nó, với mỗi bước sử dụng các điều kiện chính xác hơn trong quá trình đảo ngược và làm giảm tiếng ồn. Khi điều kiện trở nên chính xác hơn, chất lượng tái tạo được cải thiện. Cột phải nhất thể hiện kết quả tốt nhất, nơi hình ảnh gốc chính nó được sử dụng làm điều kiện, đạt được độ trung thực cao nhất. CFG không được sử dụng tại bất kỳ giai đoạn nào. Vui lòng tham khảo tài liệu nguồn để có độ phân giải và chi tiết tốt hơn.
Bài báo tuyên bố:
‘Những ví dụ này nhấn mạnh rằng việc điều kiện quá trình đảo ngược trên một hình ảnh cải thiện đáng kể tái tạo trong các khu vực chi tiết cao.
‘Đáng chú ý, trong ví dụ thứ ba của [hình ảnh dưới đây], phương pháp của chúng tôi đã tái tạo thành công hình xăm trên lưng của võ sĩ quyền anh bên phải. Hơn nữa, tư thế chân của võ sĩ quyền anh được bảo tồn chính xác hơn, và hình xăm trên chân trở nên rõ ràng.’

Kết quả định lượng thêm cho đảo ngược DDIM. Các điều kiện mô tả cải thiện đảo ngược DDIM, với điều kiện hình ảnh vượt trội so với văn bản, đặc biệt là trên các hình ảnh phức tạp.
Các tác giả cũng kiểm tra khả năng của TI trong việc chỉnh sửa ảnh, so sánh nó với các phiên bản cơ bản của các phương pháp trước đó prompt2prompt; Edit Friendly DDPM; LED-ITS++; và RF-Inversion.
Dưới đây là một số kết quả định lượng cho SDXL và Flux (và chúng tôi tham khảo người đọc đến bố cục khá nén của bài báo gốc để có thêm ví dụ).

Một số kết quả định lượng (được sắp xếp khá lộn xộn) được phân tán khắp bài báo. Chúng tôi tham khảo người đọc đến tài liệu nguồn PDF để có độ phân giải và sự rõ ràng có ý nghĩa.
Các tác giả cho rằng Đảo ngược Siêu chặt nhất quán vượt trội so với các kỹ thuật đảo ngược hiện có bằng cách đạt được sự cân bằng tốt hơn giữa tái tạo và chỉnh sửa. Các phương pháp tiêu chuẩn như đảo ngược DDIM và ReNoise có thể phục hồi hình ảnh tốt, bài báo tuyên bố rằng chúng thường gặp khó khăn trong việc bảo tồn các chi tiết tinh tế khi áp dụng các chỉnh sửa.
Ngược lại, Đảo ngược Siêu chặt tận dụng điều kiện hình ảnh để neo đầu ra của mô hình gần hơn với hình ảnh gốc, ngăn chặn các sai sót không mong muốn. Các tác giả cho rằng ngay cả khi các phương pháp cạnh tranh tạo ra các tái tạo có vẻ chính xác, việc giới thiệu các chỉnh sửa thường dẫn đến các tác phẩm hoặc sự không nhất quán về cấu trúc, và Đảo ngược Siêu chặt giảm thiểu những vấn đề này.
Cuối cùng, các kết quả định lượng được thu được bằng cách đánh giá Đảo ngược Siêu chặt chống lại MagicBrush benchmark, sử dụng đảo ngược DDIM và LEDITS++, đo bằng CLIP Sim.

So sánh định lượng của Đảo ngược Siêu chặt với MagicBrush benchmark.
Các tác giả kết luận:
‘Trong cả hai biểu đồ, sự đánh đổi giữa bảo tồn hình ảnh và tuân thủ chỉnh sửa mục tiêu rõ ràng được quan sát. Đảo ngược Siêu chặt cung cấp kiểm soát tốt hơn về sự đánh đổi này và bảo tồn hình ảnh đầu vào tốt hơn trong khi vẫn tuân thủ chỉnh sửa [lời nhắc]. ‘
‘Lưu ý rằng, một sự tương đồng CLIP trên 0,3 giữa một hình ảnh và một lời nhắc văn bản cho thấy sự liên kết có thể giữa hình ảnh và lời nhắc.’
Kết luận
Mặc dù nó không đại diện cho một ‘phá vỡ’ trong một trong những thách thức khó khăn nhất trong tổng hợp hình ảnh dựa trên LDM, Đảo ngược Siêu chặt hợp nhất một số phương pháp phụ trợ khó khăn thành một phương pháp thống nhất của chỉnh sửa hình ảnh dựa trên AI.
Mặc dù sự căng thẳng giữa tính chỉnh sửa và tính trung thực không biến mất dưới phương pháp này, nhưng nó được giảm đáng kể, theo các kết quả được trình bày. Xem xét rằng thách thức trung tâm mà công việc này giải quyết có thể chứng minh là không thể nếu được giải quyết theo cách riêng của nó (thay vào đó, hãy nhìn vượt ra ngoài các kiến trúc dựa trên LDM trong các hệ thống tương lai), Đảo ngược Siêu chặt đại diện cho một cải thiện tăng dần trong trạng thái hiện tại của nghệ thuật.
Được xuất bản lần đầu vào thứ Sáu, ngày 28 tháng 2 năm 2025












