Prompt engineering
Bardziej szczegółowy rzut oka na DALL-E 3 od OpenAI

W świecie sztucznej inteligencji generatywnej utrzymanie się na bieżąco z najnowszymi osiągnięciami jest kluczem do sukcesu. A jeśli chodzi o generowanie obrazów, Stable Diffusion i Midjourney były platformami, o których wszyscy mówili – aż do teraz.
OpenAI, wspierany przez tech giganta Microsoft, wprowadził DALL·E 3 20 września 2023 r.
DALL-E 3 to nie tylko tworzenie obrazów; to przywoływanie Twoich pomysłów do życia, dokładnie tak, jak je sobie wyobraziłeś. A najlepsza część? To szybko, jak, naprawdę szybko. Masz pomysł, wrzucasz go do DALL-E 3, i bum, Twój obraz jest gotowy.
Więc w tym artykule, będziemy zagłębiać się w to, czym jest DALL-E 3. Porozmawiamy o tym, jak działa, co go wyróżnia od reszty i dlaczego może być właśnie tym narzędziem, którego nie wiedziałeś, że potrzebujesz. Niezależnie od tego, czy jesteś projektantem, artystą, czy po prostu kimś z wieloma fajnymi pomysłami, będziesz chciał zostać na to.
Czym jest nowe w DALL·E 3, to to, że lepiej rozumie kontekst niż DALL·E 2. Wcześniejsze wersje mogły przegapić niektóre szczegóły lub zignorować kilka detali, ale DALL·E 3 jest na punkcie. Zwraca uwagę na dokładne szczegóły tego, o co prosisz, dając Ci obraz, który jest bliższy temu, co sobie wyobraziłeś.
Fajna część? DALL·E 3 i ChatGPT są teraz zintegrowane. Razem pomagają w udoskonaleniu Twoich pomysłów. Strzelasz koncepcję, ChatGPT pomaga w dopracowaniu promtu, a DALL·E 3 przywołuje ją do życia. Jeśli nie jesteś fanem obrazu, możesz poprosić ChatGPT, aby dostosować promt i kazać DALL·E 3 spróbować ponownie. Za miesięczną opłatą 20$, uzyskujesz dostęp do GPT-4, DALL·E 3 i wielu innych fajnych funkcji.
Bing Chat Microsoftu dostał ręce na DALL·E 3 nawet przed ChatGPT OpenAI, a teraz to nie tylko duże przedsiębiorstwa, ale każdy może bawić się nim za darmo. Integracja z Bing Chat i Bing Image Creator sprawia, że jest o wiele łatwiejszy w użyciu dla każdego.
Wzrost modeli dyfuzyjnych
W ciągu ostatnich 3 lat, sztuczna inteligencja wizualna zaobserwowała wzrost modeli dyfuzyjnych, czyniąc znaczny krok do przodu, szczególnie w generowaniu obrazów. Przed modelami dyfuzyjnymi, sieci generatywne przeciwstawne (GANs) były technologią nr 1 do generowania realistycznych obrazów.
Jednak miały one swoje wyzwania, w tym potrzebę ogromnych ilości danych i mocy obliczeniowej, co często sprawiało, że były trudne w obsłudze.
Wejdź dyfuzyjne modele. Pojawiły się one jako bardziej stabilna i wydajna alternatywa dla GANs. W przeciwieństwie do GANs, modele dyfuzyjne działają przez dodawanie szumu do danych, maskując je, aż pozostaje tylko losowość. Następnie pracują wstecz, odwracając ten proces, odtwarzając znaczące dane z hałasu. Ten proces okazał się skuteczny i mniej wymagający zasobów, co sprawiło, że modele dyfuzyjne stały się gorącym tematem w społeczności AI.
Prawdziwy punkt zwrotny nastąpił wokół 2020 r., z serią innowacyjnych prac i wprowadzeniem technologii CLIP OpenAI, która znacznie rozwinęła możliwości modeli dyfuzyjnych. To sprawiło, że modele dyfuzyjne są wyjątkowo dobre w syntezie obrazu na podstawie tekstu, umożliwiając im generowanie realistycznych obrazów z opisów tekstowych. Te przełomy nie były tylko w generowaniu obrazów, ale także w dziedzinach takich jak kompozycja muzyki i badania biomedyczne.
Dziś modele dyfuzyjne nie są już tylko tematem zainteresowania akademickiego, ale są stosowane w praktycznych, realnych scenariuszach.
Modelowanie generatywne i warstwy uwagi siebie: DALL-E 3
Jednym z kluczowych postępów w tej dziedzinie była ewolucja modelowania generatywnego, z podejściami opartymi na próbkowaniu, takimi jak modelowanie autoregresyjne i procesy dyfuzyjne, które przewodzą. Przeobraziły one modele tekstu-obrazu, prowadząc do drastycznych popraw wydajności. Rozbijając generowanie obrazu na dyskretne kroki, te modele stały się bardziej przystępne i łatwiejsze do nauczenia przez sieci neuronowe.
Jednocześnie użycie warstw uwagi siebie odegrało kluczową rolę. Te warstwy, ułożone razem, pomogły w generowaniu obrazów bez potrzeby niejawnych uprzedzeń przestrzennych, powszechnego problemu z konwolucjami. Ten shift pozwolił modelom tekstu-obrazu na skalę i niezawodne ulepszanie, dzięki dobrze zrozumianym właściwościom skali transformatorów.
Wyzwania i rozwiązania w generowaniu obrazu
Pomimo tych postępów, kontrola w generowaniu obrazu pozostaje wyzwaniem. Problemy takie jak podążanie za promtem, gdzie model może nie przestrzegać ściśle tekstu wejściowego, były powszechne. Aby rozwiązać ten problem, proponowane są nowe podejścia, takie jak poprawa napisów, mające na celu poprawę jakości par tekstu i obrazu w zestawach danych szkoleniowych.
Poprawa napisów: nowe podejście
Poprawa napisów obejmuje generowanie lepszych napisów dla obrazów, co z kolei pomaga w szkoleniu bardziej dokładnych modeli tekstu-obrazu. To osiągane jest za pomocą solidnego napisywania obrazu, który produkuje szczegółowe i dokładne opisy obrazów. Dzięki szkoleniu na tych ulepszonych napisach DALL-E 3 osiągnęło zdumiewające wyniki, ściśle przypominające fotografie i dzieła sztuki wytworzone przez ludzi.
Szkolenie na danych syntetycznych
Pomysł szkolenia na danych syntetycznych nie jest nowy. Jednak unikalny wkład tutaj tkwi w stworzeniu nowego, opisowego systemu napisywania obrazu. Wpływ korzystania z syntetycznych napisów do szkolenia modeli generatywnych był znaczący, prowadząc do poprawy zdolności modelu do ściślego podążania za promtem.
Ocena DALL-E 3
Przez wiele ocen i porównań z poprzednimi modelami, takimi jak DALL-E 2 i Stable Diffusion XL, DALL-E 3 wykazał lepszą wydajność, szczególnie w zadaniach związanych z podążaniem za promtem.
Użycie zautomatyzowanych ocen i benchmarków dostarczyło jasnych dowodów na jego zdolności, umacniając jego pozycję jako najnowocześniejszego generatora tekstu-obrazu.
DALL-E 3 Prompty i zdolności
DALL-E 3 oferuje bardziej logiczne i ulepszone podejście do tworzenia wizualizacji. Podczas przewijania, zauważysz, jak DALL-E tworzy każdy obraz, z połączeniem dokładności i wyobraźni, które rezonują z danym promtem.
W przeciwieństwie do swojego poprzednika, ta ulepszona wersja wyróżnia się w układaniu obiektów naturalnie w scenie i dokładnym przedstawianiu cech ludzkich, aż do poprawnej liczby palców na ręku. Ulepszenia rozciągają się na drobniejsze szczegóły i są teraz dostępne w wyższej rozdzielczości, zapewniając bardziej realistyczny i profesjonalny wynik.
Możliwości renderowania tekstu również uległy znacznej poprawie. Podczas gdy poprzednie wersje DALL-E produkowały bezsensowny tekst, DALL-E 3 może teraz generować czytelny i profesjonalnie stylizowany tekst (czasem), a nawet czyste logo od czasu do czasu.
Zrozumienie modelu złożonych i subtelnych żądań obrazowych zostało znacznie ulepszone. DALL-E 3 może teraz dokładnie podążać za szczegółowymi opisami, nawet w scenariuszach z wieloma elementami i konkretnymi instrukcjami, demonstrując swoją zdolność do tworzenia spójnych i dobrze skomponowanych obrazów. Zobaczmy kilka prompty i wynikowe obrazy:
Zaprojektuj opakowanie dla linii herbat organicznych. Włącz miejsce na nazwę produktu i opis.
Stwórz banner internetowy reklamujący letnią wyprzedaż mebli ogrodowych. Obraz powinien przedstawiać plażę z różnymi meblami ogrodowymi i tekstem ogłaszającym 'Duże letnie oszczędności!'
Stwórz plakat podróżniczy z Paryżem w stylu vintage z wyrazistym i stylizowanym tekstem mówiącym 'Odwiedź Paryż' na dole.
Stwórz tłoczny widok festiwalu Diwali w Indiach, z rodzinami zapalającymi lampy, fajerwerkami na niebie i tradycyjnymi słodyczami i dekoracjami.Wygeneruj obraz słynnej postaci historycznej, takiej jak Kleopatra lub Leonardo da Vinci, umieszczonej w współczesnym otoczeniu, używającej nowoczesnej technologii, takiej jak smartfony lub laptopy.Ograniczenia i ryzyko DALL-E 3
OpenAI podjął znaczne kroki, aby filtrować treści wyraźne z danych szkoleniowych DALL-E 3, dążąc do zmniejszenia uprzedzeń i poprawy danych wyjściowych modelu. To obejmuje zastosowanie specjalnych filtrów dla wrażliwych kategorii treści i przegląd progów dla szerszych filtrów. Stos filtracyjny obejmuje również kilka warstw zabezpieczeń, takich jak mechanizmy odmowy w ChatGPT dla wrażliwych tematów, klasyfikatory danych wejściowych, aby zapobiec naruszeniom polityki, listy blokowania dla konkretnych kategorii treści i transformacje, aby upewnić się, że prompty są zgodne z wytycznymi.
Pomimo swoich postępów, DALL-E 3 ma ograniczenia w zrozumieniu relacji przestrzennych, renderowaniu długiego tekstu dokładnie i generowaniu konkretnych obrazów. OpenAI uznaje te wyzwania i pracuje nad ulepszeniami dla przyszłych wersji.
Firma pracuje również nad sposobami różnicowania obrazów wygenerowanych przez AI od tych stworzonych przez ludzi, odzwierciedlając swoje zaangażowanie w przejrzystość i odpowiedzialne korzystanie z AI.
DALL-E 3, najnowsza wersja, będzie dostępna w fazach, zaczynając od konkretnych grup klientów i później rozszerzając się na laboratoria badawcze i usługi API. Jednak data premiery publicznej wersji bezpłatnej nie jest jeszcze potwierdzona.
OpenAI naprawdę ustanawia nowy standard w dziedzinie AI z DALL-E 3, płynnie łącząc złożone możliwości techniczne i przyjazne dla użytkownika interfejsy. Integracja DALL-E 3 z powszechnie używanymi platformami, takimi jak Bing, odzwierciedla przesunięcie od specjalistycznych aplikacji do szerszych, bardziej dostępnych form rozrywki i użytku.
Prawdziwym przełomem w nadchodzących latach będzie równowaga między innowacjami a uprawnieniami użytkowników. Firmy, które prosperują, będą tymi, które nie tylko posuwają granice tego, co AI może osiągnąć, ale także zapewniają użytkownikom autonomię i kontrolę, której pragną. OpenAI, z jego zaangażowaniem w etyczną AI, ostrożnie toruje tę ścieżkę. Cel jest jasny: stworzyć narzędzia AI, które nie tylko są potężne, ale także godne zaufania i inkluzywne, zapewniając, że korzyści z AI są dostępne dla wszystkich.





















