Connect with us

Poprawa dokładności edycji obrazów AI

Kąt Andersona

Poprawa dokładności edycji obrazów AI

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Chociaż model latent diffusion (LDM) Adobe Firefly jest prawdopodobnie jednym z najlepszych dostępnych obecnie, użytkownicy programu Photoshop, którzy wypróbowali jego funkcje generatywne, zauważyli, że nie jest w stanie łatwo edytować istniejące obrazy – zamiast tego całkowicie zastępuje wybrany przez użytkownika obszar obrazem opartym na podanym przez użytkownika tekście (chociaż Firefly jest zdolny do integrowania wygenerowanego fragmentu z kontekstem obrazu).

W obecnej wersji beta programu Photoshop można co najmniej uwzględnić obraz odniesienia jako częściowy podpowiedź obrazu, co pozwala flagowemu produktowi Adobe dogonić funkcjonalność, z której korzystają użytkownicy Stable Diffusion przez ponad dwa lata, dzięki ramom zewnętrznym, takim jak Controlnet:

Obecna wersja beta programu Adobe Photoshop pozwala na użycie obrazów odniesienia przy generowaniu nowych treści wewnątrz wyboru – choć jest to sprawa losowa na razie.

Obecna wersja beta programu Adobe Photoshop pozwala na użycie obrazów odniesienia przy generowaniu nowych treści wewnątrz wyboru – choć jest to sprawa losowa na razie.

Ilustruje to otwarty problem w badaniach nad syntezą obrazu – trudność, jaką modele dyfuzyjne mają przy edytowaniu istniejących obrazów bez wdrożenia pełnowymiarowej „przemyślenia” wyboru wskazanego przez użytkownika.

Chociaż ta dyfuzyjna inpaint spełnia polecenie użytkownika, całkowicie przeistacza źródłowy temat bez uwzględnienia oryginalnego obrazu (z wyjątkiem połączenia nowej generacji z otoczeniem). Źródło: https://arxiv.org/pdf/2502.20376

Chociaż ta dyfuzyjna inpaint spełnia polecenie użytkownika, całkowicie przeistacza źródłowy temat bez uwzględnienia oryginalnego obrazu (z wyjątkiem połączenia nowej generacji z otoczeniem). Źródło: https://arxiv.org/pdf/2502.20376

Ten problem występuje, ponieważ LDM generuje obrazy za pomocą iteracyjnego usuwania szumu, gdzie każdy etap procesu jest warunkowany przez podany przez użytkownika tekst. Z zawartością tekstu przekonwertowaną na tokeny osadzania i z modelem hyperskali, takim jak Stable Diffusion lub Flux, zawierającym setki tysięcy (lub miliony) prawie dopasowanych osadzania związanych z podpowiedzią, proces ma obliczoną warunkową dystrybucję do celu; i każdy krok jest krokiem w kierunku tego „celu warunkowej dystrybucji”.

… (reszta treści)

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.