Kontakt z nami

Artificial Intelligence

Suwaki koncepcyjne: precyzyjna kontrola w modelach dyfuzyjnych za pomocą adapterów LoRA

mm
Zaktualizowano on

Dzięki swoim możliwościom, tekst na obraz modele dyfuzyjne zyskały ogromną popularność w środowisku artystycznym. Jednak obecne modele, w tym najnowocześniejsze platformy, często mają trudności z utrzymaniem kontroli nad koncepcjami wizualnymi i atrybutami generowanych obrazów, co prowadzi do niezadowalających wyników. Większość modeli opiera się wyłącznie na podpowiedziach tekstowych, co stwarza wyzwania w zakresie precyzyjnego modulowania ciągłych atrybutów, takich jak intensywność pogody, ostrość cieni, wyraz twarzy czy wiek osoby. Utrudnia to użytkownikom końcowym dostosowywanie obrazów do ich konkretnych potrzeb. Co więcej, chociaż te struktury generatywne tworzą realistyczne obrazy o wysokiej jakości, są podatne na zniekształcenia, takie jak wypaczone twarze lub brakujące palce.

Aby pokonać te ograniczenia, programiści zaproponowali użycie interpretowalnych suwaków koncepcji. Suwaki te zapewniają użytkownikom większą kontrolę nad atrybutami wizualnymi, usprawniając generowanie i edycję obrazów w modelach dyfuzyjnych. Suwaki koncepcji w modelach dyfuzyjnych działają poprzez identyfikację kierunku parametrów odpowiadającego indywidualnej koncepcji, minimalizując jednocześnie interferencję z innymi atrybutami. Framework tworzy te suwaki przy użyciu przykładowych obrazów lub zestawu podpowiedzi, ustalając w ten sposób kierunki zarówno dla koncepcji tekstowych, jak i wizualnych.

Ostatecznie użycie suwaków koncepcyjnych w zamian tekstu na obraz modele dyfuzyjne może skutkować generowaniem obrazu przy minimalnym stopniu zakłóceń i zwiększoną kontrolą nad efektem końcowym, jednocześnie zwiększając postrzegany realizm bez zmiany treści obrazów, a tym samym generowanie realistycznych obrazów. W tym artykule omówimy bardziej szczegółowo koncepcję wykorzystania suwaków koncepcji w tekstach do struktur obrazowych i przeanalizujemy, w jaki sposób ich użycie może skutkować uzyskaniem najwyższej jakości obrazów generowanych przez sztuczną inteligencję. 

Wprowadzenie do suwaków koncepcji

Jak wspomniano wcześniej, obecne ramy rozpowszechniania tekstu na obraz często mają trudności z kontrolowaniem koncepcji i atrybutów wizualnych w generowanych obrazach, co prowadzi do niezadowalających wyników. Co więcej, dla wielu z tych modeli modulowanie ciągłych atrybutów jest trudne, co dodatkowo przyczynia się do niezadowalających wyników. Concept Sliders mogą pomóc złagodzić te problemy, zapewniając twórcom treści i użytkownikom końcowym lepszą kontrolę nad procesem generowania obrazu i stawiając czoła wyzwaniom stojącym przed obecnymi platformami.

Większość obecnych modeli dyfuzji tekstu na obraz opiera się na bezpośredniej modyfikacji tekstu w celu kontrolowania atrybutów obrazu. Chociaż takie podejście umożliwia generowanie obrazu, nie jest optymalne, ponieważ zmiana podpowiedzi może drastycznie zmienić strukturę obrazu. Inne podejście stosowane w tych ramach obejmuje techniki post-hoc, które odwracają proces dyfuzji i modyfikują wzajemne uwagi w celu edycji koncepcji wizualnych. Techniki post-hoc mają jednak ograniczenia, ponieważ obsługują jedynie ograniczoną liczbę jednoczesnych edycji i wymagają indywidualnych przejść interferencyjnych dla każdej nowej koncepcji. Ponadto mogą wprowadzić splątanie pojęciowe, jeśli nie zostaną starannie zaprojektowane.

Natomiast Concept Sliders oferują bardziej wydajne rozwiązanie do generowania obrazu. Te lekkie, łatwe w użyciu adaptery można zastosować do wstępnie wytrenowanych modeli, zwiększając kontrolę i precyzję w stosunku do pożądanych koncepcji w jednym przejściu interferencyjnym przy minimalnym splątaniu. Concept Sliders umożliwiają także edycję koncepcji wizualnych nieobjętych opisami tekstowymi, co odróżnia je od metod edycji opartych na podpowiedziach tekstowych. Chociaż metody dostosowywania oparte na obrazach mogą skutecznie dodawać tokeny do koncepcji opartych na obrazach, są one trudne do wdrożenia w przypadku edycji obrazów. Z drugiej strony suwaki koncepcji umożliwiają użytkownikom końcowym dostarczenie niewielkiej liczby sparowanych obrazów definiujących pożądaną koncepcję. Suwaki następnie uogólniają tę koncepcję i automatycznie stosują ją do innych obrazów, mając na celu zwiększenie realizmu i naprawienie zniekształceń, np. w dłoniach.

Concept Sliders starają się uczyć i rozwiązywać problemy wspólne dla czterech koncepcji generatywnej sztucznej inteligencji i ram dyfuzji: edycja obrazu, metody oparte na wskazówkach, edycja modelu i kierunki semantyczne.

Edycja zdjęć

Obecne struktury sztucznej inteligencji albo skupiają się na wykorzystaniu warunkowych danych wejściowych do kierowania strukturą obrazu, albo manipulują krzyżowaniem uwagi obrazu źródłowego z jego podpowiedzią docelową, aby umożliwić edycję pojedynczego obrazu w ramach rozpowszechniania tekstu na obraz. W rezultacie podejścia te można wdrożyć tylko na pojedynczych obrazach i wymagają one również optymalizacji podstawy ukrytej dla każdego obrazu w wyniku ewolucji struktury geometrycznej w odstępach czasowych w podpowiedziach. 

Metody oparte na wytycznych

Zastosowanie metod opartych na wskazówkach wolnych od klasyfikatorów wykazało ich zdolność do poprawy jakości generowanych obrazów i lepszego dopasowania tekstu do obrazu. Włączając terminy orientacyjne podczas interferencji, metoda poprawia ograniczoną kompozycję dziedziczoną przez struktury dyfuzyjne i można je wykorzystać do prowadzenia przez niebezpieczne koncepcje w ramach rozproszonych. 

Edycja modelu

Użycie suwaków koncepcji można również postrzegać jako technikę edycji modelu, która wykorzystuje adapter niskiej rangi do wyprowadzania pojedynczego atrybutu semantycznego, który zapewnia miejsce na ciągłą kontrolę dopasowującą się do atrybutu. Metody dostosowywania oparte na dostrajaniu są następnie wykorzystywane do personalizacji platformy w celu dodania nowych koncepcji. Co więcej, technika Custom Diffusion oferuje sposób na dostrojenie warstw skupiających uwagę w celu włączenia nowych koncepcji wizualnych do wcześniej wytrenowanych modeli dyfuzji. Z drugiej strony technika Textual Diffusion proponuje optymalizację wektora osadzania w celu aktywowania możliwości modelu i wprowadzenia koncepcji tekstowych do frameworka. 

Kierunek semantyczny w sieciach GAN

Manipulowanie atrybutami semantycznymi jest jednym z kluczowych atrybutów generatywnych sieci kontradyktoryjnych, w przypadku których stwierdzono, że ukryte trajektorie przestrzeni są wyrównywane w sposób samonadzorowany. W strukturach dyfuzyjnych te trajektorie przestrzeni ukrytej istnieją w środkowych warstwach architektury U-Net, a główny kierunek przestrzeni ukrytych w strukturach dyfuzyjnych oddaje semantykę globalną. Suwaki koncepcyjne uczą podprzestrzenie niskiej rangi bezpośrednio odpowiadające atrybutom specjalnym i uzyskują precyzyjne i zlokalizowane wskazówki edycji za pomocą par tekstu lub obrazów w celu optymalizacji kierunków globalnych. 

Suwaki koncepcji: architektura i działanie

Modele dyfuzyjne i adaptery LoRA lub Low Rank

Modele dyfuzji stanowią zasadniczo podklasę generatywnych struktur sztucznej inteligencji, które działają na zasadzie syntezy danych poprzez odwrócenie procesu dyfuzji. Proces dyfuzji w przód początkowo dodaje szum do danych, powodując w ten sposób przejście od stanu zorganizowanego do całkowitego stanu szumu Gaussa. Podstawowym celem modeli dyfuzji jest odwrócenie procesu dyfuzji poprzez stopniowe odszumianie obrazu i próbkowanie losowego szumu Gaussa w celu wygenerowania obrazu. W rzeczywistych zastosowaniach głównym celem struktur dyfuzji jest przewidywanie prawdziwego szumu, gdy pełny szum Gaussa jest wprowadzany jako sygnał wejściowy z dodatkowymi danymi wejściowymi, takimi jak warunkowanie i krok czasowy. 

Technika LoRA lub adapterów niskiej rangi rozkłada aktualizacje wag podczas dostrajania, aby umożliwić efektywną adaptację dużych, wstępnie wyszkolonych platform do dalszych zadań. Technika LoRA rozkłada aktualizacje wag dla wstępnie wytrenowanej warstwy modelu w odniesieniu zarówno do wymiarów wejściowych, jak i wyjściowych i ogranicza aktualizację do podprzestrzeni niskowymiarowej. 

Suwaki koncepcyjne

Podstawowym celem Concept Sliders jest umożliwienie dostrojenia adapterów LoRA w strukturze dyfuzyjnej, aby ułatwić większy stopień kontroli nad obrazami ukierunkowanymi na koncepcje, co pokazano na poniższym obrazie. 

Jeśli są uwarunkowane koncepcjami docelowymi, suwaki koncepcji uczą się wskazówek dotyczących parametrów o niskiej randze, aby zwiększyć lub zmniejszyć ekspresję określonych atrybutów. W przypadku modelu i jego docelowej koncepcji głównym celem Concept Sliders jest uzyskanie ulepszonego modelu, który modyfikuje prawdopodobieństwo wzmocnienia i stłumienia atrybutów obrazu, gdy jest on uwarunkowany docelową koncepcją, aby zwiększyć prawdopodobieństwo ulepszenia atrybutów i zmniejszyć prawdopodobieństwo tłumienia atrybutów. Korzystając z reparametryzacji i wzoru Tweediego, struktura wprowadza zmienny w czasie proces szumu i wyraża każdy wynik jako przewidywanie odszumiania. Co więcej, cel rozplątania precyzyjnie dostraja moduły w Concept Sliders, utrzymując stałe wstępnie wytrenowane ciężary, a współczynnik skalowania wprowadzony podczas formułowania LoRA jest modyfikowany podczas interferencji. Współczynnik skalowania ułatwia również dostosowanie mocnych stron edycji i wzmacnia zmiany bez konieczności ponownego uczenia frameworka, jak pokazano na poniższym obrazku. 

Metody edycji stosowane wcześniej w frameworkach ułatwiły skuteczniejsze edycje poprzez ponowne uczenie frameworka przy użyciu zwiększonych wskazówek. Jednakże skalowanie współczynnika skalowania podczas interferencji daje takie same wyniki edycji bez zwiększania kosztów i czasu ponownego szkolenia. 

Nauka pojęć wizualnych

Suwaki koncepcji zaprojektowano w taki sposób, aby kontrolować koncepcje wizualne, których podpowiedzi tekstowe nie są w stanie dobrze zdefiniować, a suwaki te wykorzystują małe zbiory danych, które są parowane przed lub po w celu trenowania tych koncepcji. Kontrast pomiędzy parami obrazów pozwala suwakom nauczyć się koncepcji wizualnych. Co więcej, proces szkolenia Concept Sliders optymalizuje komponent LoRA zaimplementowany zarówno w kierunku do przodu, jak i do tyłu. W rezultacie komponent LoRA dopasowuje się do kierunku, który powoduje efekty wizualne w obu kierunkach. 

Suwaki koncepcji: Wyniki wdrożenia

Aby przeanalizować wzrost wydajności, programiści ocenili użycie suwaków koncepcji głównie na platformie Stabilna dyfuzja XL, framework o wysokiej rozdzielczości 1024 pikseli z dodatkowymi eksperymentami przeprowadzonymi na frameworku Stable Diffusion v1.4, przy czym modele są trenowane przez 500 epok każdy. 

Suwaki koncepcji tekstowych

Aby ocenić wydajność tekstowych suwaków koncepcji, sprawdza się ją na zestawie 30 koncepcji tekstowych, a metodę porównuje się z dwiema liniami bazowymi, które wykorzystują standardowy monit tekstowy przez ustaloną liczbę kroków czasowych, a następnie rozpoczyna kompozycję od dodanie podpowiedzi do sterowania obrazem. Jak widać na poniższym rysunku, użycie Concept Sliders skutkuje stale wyższym wynikiem CLIP i stałym obniżeniem wyniku LPIPS w porównaniu do oryginalnego frameworku bez Concept Sliders. 

Jak widać na powyższym obrazku, zastosowanie Concept Sliderów pozwala na precyzyjną edycję atrybutów pożądanych w procesie generowania obrazu przy zachowaniu ogólnej struktury obrazu. 

Suwaki koncepcji wizualnej

Modele dyfuzji tekstu na obraz, które korzystają wyłącznie z podpowiedzi tekstowych, często mają trudności z utrzymaniem większego stopnia kontroli nad atrybutami wizualnymi, takimi jak zarost czy kształt oczu. Aby zapewnić lepszą kontrolę nad szczegółowymi atrybutami, suwaki koncepcji wykorzystują opcjonalne wskazówki tekstowe w połączeniu ze zbiorami danych obrazów. Jak widać na poniższym rysunku, suwaki koncepcji tworzą indywidualne suwaki dla „rozmiaru oczu” i „kształtu brwi”, które rejestrują pożądane transformacje za pomocą par obrazów. 

Wyniki można dodatkowo udoskonalić, dostarczając określone teksty, tak aby kierunek skupiał się na tym obszarze twarzy i tworzył suwaki ze stopniową kontrolą docelowego atrybutu. 

Komponowanie suwaków

Jedną z głównych zalet korzystania z Concept Sliders jest ich możliwość komponowania, która pozwala użytkownikom łączyć wiele suwaków w celu uzyskania większej kontroli, zamiast skupiać się na jednej koncepcji na raz, co można zawdzięczać kierunkom suwaków niskiej rangi używanym w Concept Sliders . Dodatkowo, ponieważ Concept Sliders to lekkie adaptery LoRA, można je łatwo udostępniać, a także można je z łatwością nakładać na modele dyfuzyjne. Użytkownicy mogą także regulować wiele pokręteł jednocześnie, aby sterować złożonymi generacjami, pobierając ciekawe zestawy suwaków. 

Poniższy obraz przedstawia możliwości kompozycji suwaków koncepcji, a wiele suwaków jest komponowanych stopniowo w każdym rzędzie od lewej do prawej, umożliwiając w ten sposób przechodzenie przez wielowymiarowe przestrzenie koncepcji przy zwiększonym stopniu kontroli nad koncepcjami. 

Poprawa jakości obrazu

Chociaż najnowocześniejsze ramy rozpowszechniania tekstu na obraz i wielkoskalowe modele generatywne, takie jak Stabilna dyfuzja XL model są w stanie generować realistyczne obrazy o wysokiej jakości, często cierpią z powodu zniekształceń obrazu, takich jak rozmyte lub zawijane obiekty, mimo że parametry tych najnowocześniejszych struktur mają ukrytą zdolność do generowania wysokiej jakości wyników przy mniejszej liczbie pokoleń. Użycie suwaków koncepcji może skutkować generowaniem obrazów z mniejszą liczbą zniekształceń poprzez odblokowanie prawdziwych możliwości tych modeli poprzez identyfikację kierunków parametrów niskiej rangi. 

Naprawianie rąk

Generowanie obrazów z realistycznie wyglądającymi rękami zawsze było przeszkodą dla frameworków dyfuzyjnych, a użycie suwaków koncepcji bezpośrednio kontroluje tendencję do zniekształcania rąk. Poniższy obraz przedstawia efekt użycia suwaków koncepcyjnych „napraw ręce”, które umożliwiają frameworkowi generowanie obrazów z bardziej realistycznie wyglądającymi rękami. 

Napraw suwaki

Użycie Concept Sliders może nie tylko skutkować wygenerowaniem bardziej realistycznie wyglądających dłoni, ale także pokazało ich potencjał w poprawie ogólnego realizmu obrazów generowanych przez framework. Concept Sliders identyfikuje również kierunek pojedynczego parametru niskiej rangi, który umożliwia zmianę obrazów w stosunku do typowych problemów z zniekształceniami, a wyniki pokazano na poniższym obrazie. 

Final Thoughts

W tym artykule mówiliśmy o suwakach koncepcji, prostym, ale skalowalnym nowym paradygmacie, który umożliwia interpretacyjną kontrolę nad generowanym wyjściem w modelach dyfuzyjnych. Zastosowanie suwaków koncepcji ma na celu rozwiązanie problemów, z którymi borykają się obecne struktury rozpowszechniania tekstu na obraz, które utrudniają utrzymanie wymaganej kontroli nad koncepcjami wizualnymi i atrybutami zawartymi w wygenerowanym obrazie, co często prowadzi do niezadowalających wyników. Co więcej, większość modeli dyfuzji tekstu na obraz ma trudności z modulowaniem ciągłych atrybutów obrazu, co ostatecznie często prowadzi do niezadowalających wyników. Użycie suwaków koncepcji może pozwolić ramom rozpowszechniania tekstu na obraz złagodzić te problemy oraz zapewnić twórcom treści i użytkownikom końcowym większy stopień kontroli nad procesem generowania obrazów oraz rozwiązać problemy napotykane przez obecne platformy. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.