Prompt Engineering

Bližší pohled na OpenAI DALL-E 3

Zveřejněno

7 měsíci

Října 31, 2023

v Generativní AI svět, držet krok s nejnovějšími je název hry. A pokud jde o generování obrázků, Stable Diffusion and Střední cesta byly platformou, o které všichni mluvili – až dosud.

Představeno OpenAI, za kterým stojí technologický gigant Microsoft DALL E 3 září 20th, 2023.

DALL-E 3 není jen o vytváření obrázků; jde o to přivést své nápady k životu, přesně tak, jak jste si je představovali. A nejlepší část? Je to rychlé, jako, opravdu rychlé. Máte nápad, vložíte jej do DALL-E 3 a bum, váš obrázek je připraven.

V tomto článku se tedy ponoříme hluboko do toho, o čem DALL-E 3 je. Budeme mluvit o tom, jak to funguje, čím se odlišuje od ostatních a proč to může být právě nástroj, o kterém jste nevěděli, že jej potřebujete. Ať už jste designér, umělec nebo prostě někdo se spoustou skvělých nápadů, u toho se budete chtít držet. Začněme.

Co je nové u DALL·E 3 je, že dostává kontext mnohem lépe než DALL·E 2. Dřívější verze možná vynechaly některá specifika nebo tu a tam ignorovaly pár detailů, ale DALL·E 3 je na místě. Zachytí přesné detaily toho, co požadujete, a poskytne vám obrázek, který se blíží tomu, co jste si představovali.

Skvělá část? DALL·E 3 a ChatGPT jsou nyní integrovány dohromady. Spolupracují na upřesnění vašich nápadů. Natočíte koncept, ChatGPT pomůže doladit výzvu a DALL·E 3 ji oživí. Pokud nejste fanouškem tohoto obrázku, můžete požádat ChatGPT o úpravu výzvy a získat DALL·E 3, aby to zkusil znovu. Za měsíční poplatek 20 $ získáte přístup ke GPT-4, DALL·E 3 a mnoha dalším skvělým funkcím.

Microsoft je bingchat dostal DALL·E 3 do rukou ještě dříve než ChatGPT od OpenAI a nyní to nejsou jen velké podniky, ale každý, kdo si s ním může hrát zdarma. Integrace do Bing Chat a Bing Image Creator značně usnadňuje použití pro každého.

Vzestup modelů difúze

V posledních 3 letech byla vizuální umělá inteligence svědkem vzestupu difúzních modelů, které učinily významný skok vpřed, zejména v oblasti generování obrázků. Před difúzními modely, Generative Adversarial Networks (GAN) byly hlavní technologií pro generování realistických obrázků.

GAN

Měli však svůj podíl na výzvách, včetně potřeby obrovského množství dat a výpočetního výkonu, kvůli kterým je často bylo obtížné zvládnout.

vstoupit vysílání modely. Objevily se jako stabilnější a efektivnější alternativa k GAN. Na rozdíl od GAN fungují modely difúze tak, že k datům přidávají šum a zakrývají je, dokud nezůstane pouze náhodnost. Poté pracují zpětně, aby zvrátili tento proces a rekonstruovali smysluplná data ze šumu. Tento proces se ukázal jako efektivní a méně náročný na zdroje, díky čemuž se modely šíření staly horkým tématem v komunitě AI.

Skutečný zlom nastal kolem roku 2020 se sérií inovativních dokumentů a představením CLIP OpenAI technologie, která výrazně zlepšila možnosti difúzních modelů. Díky tomu byly difúzní modely mimořádně dobré v syntéze textu na obrázek, což jim umožnilo generovat realistické obrázky z textových popisů. Tyto průlomy nebyly jen v generování obrazu, ale také v oblastech jako hudební skladba a biomedicínský výzkum.

Dnes nejsou modely difúze jen tématem akademického zájmu, ale používají se v praktických scénářích reálného světa.

Generativní modelování a vrstvy sebepozornosti: DALL-E 3

Zdroj

Jedním z kritických pokroků v této oblasti byl vývoj generativního modelování s přístupy založenými na vzorkování, jako je autoregresivní generativní modelování a difúzní procesy. Transformovali modely text-to-image, což vedlo k drastickému zlepšení výkonu. Rozdělením generování obrazu na jednotlivé kroky se tyto modely staly ovladatelnějšími a pro neuronové sítě se snáze učí.

Paralelně s tím hrálo zásadní roli použití samopozorných vrstev. Tyto vrstvy, naskládané dohromady, pomohly při generování obrázků bez potřeby implicitních prostorových zkreslení, což je běžný problém s konvolucemi. Tento posun umožnil modelům text-to-image spolehlivě škálovat a zlepšovat díky dobře pochopeným vlastnostem škálování transformátorů.

Výzvy a řešení v generování obrazu

Navzdory těmto pokrokům zůstává ovladatelnost při generování obrazu výzvou. Převládaly problémy, jako je rychlé sledování, kdy se model nemusel těsně držet vstupního textu. K vyřešení tohoto problému byly navrženy nové přístupy, jako je vylepšení titulků, zaměřené na zvýšení kvality párování textu a obrázků v trénovacích datových sadách.

Vylepšení titulků: Nový přístup

Zlepšení titulků zahrnuje generování kvalitnějších titulků pro obrázky, což zase pomáhá při trénování přesnějších modelů převodu textu na obrázek. Toho je dosaženo díky robustnímu popisovači obrázků, který vytváří podrobné a přesné popisy obrázků. Školením na těchto vylepšených titulcích byli DALL-E 3 schopni dosáhnout pozoruhodných výsledků, které se velmi podobají fotografiím a uměleckým dílům vytvořeným lidmi.

Školení o syntetických datech

Koncept školení na syntetických datech není nový. Jedinečný přínos zde však spočívá ve vytvoření nového, popisného systému popisování obrázků. Dopad použití syntetických titulků pro trénování generativních modelů byl značný, což vedlo ke zlepšení schopnosti modelu přesně následovat výzvy.

Hodnocení DALL-E 3

Prostřednictvím několikanásobného hodnocení a srovnání s předchozími modely, jako je DALL-E 2 a Stable Diffusion XL, DALL-E 3 prokázal vynikající výkon, zejména v úkolech souvisejících s rychlým sledováním.

Porovnání modelů text-to-image na různých hodnoceních

Použití automatizovaných hodnocení a benchmarků poskytlo jasný důkaz o jeho schopnostech a upevnilo jeho pozici jako nejmodernějšího generátoru textu na obrázek.

DALL-E 3 Výzvy a schopnosti

DALL-E 3 nabízí logičtější a rafinovanější přístup k vytváření vizuálů. Při procházení si všimnete, jak DALL-E vytváří každý obrázek se směsí přesnosti a představivosti, která rezonuje s danou výzvou.

Na rozdíl od svého předchůdce tato vylepšená verze vyniká přirozeným uspořádáním objektů ve scéně a přesným zobrazením lidských rysů, až do správného počtu prstů na ruce. Vylepšení se rozšiřují na jemnější detaily a jsou nyní k dispozici ve vyšším rozlišení, což zajišťuje realističtější a profesionálnější výstup.

Výrazného zlepšení zaznamenaly také možnosti vykreslování textu. Zatímco předchozí verze DALL-E produkovaly nesmyslný text, DALL-E 3 nyní dokáže generovat čitelné a profesionálně stylizované nápisy (někdy) a příležitostně i čistá loga.

Výrazně se zlepšilo pochopení modelu pro složité a jemné požadavky na obrázky. DALL-E 3 nyní dokáže přesně sledovat podrobné popisy, a to i ve scénářích s více prvky a specifickými instrukcemi, což prokazuje svou schopnost vytvářet koherentní a dobře komponované snímky. Pojďme prozkoumat některé výzvy a příslušný výstup, který jsme dostali:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 obrázky založené na textových výzvách

Obrázky DALL-E 3 založené na textových výzvách (Všimněte si, že levý plakát má nesprávný pravopis)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 obrázky založené na textových výzvách

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Obrázky DALL-E 3 založené na textových výzvách (Všimněte si, že oba plakáty mají nesprávný pravopis)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 obrázky založené na textových výzvách

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 obrázky založené na textových výzvách

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 obrázky založené na textových výzvách

Omezení a rizika DALL-E 3

OpenAI podniklo významné kroky k filtrování explicitního obsahu z tréninkových dat DALL-E 3 s cílem snížit zkreslení a zlepšit výstup modelu. To zahrnuje použití specifických filtrů pro kategorie citlivého obsahu a revizi prahových hodnot pro širší filtry. Zásobník zmírnění také zahrnuje několik vrstev zabezpečení, jako jsou mechanismy odmítnutí v ChatGPT pro citlivá témata, klasifikátory rychlých vstupů, aby se zabránilo porušování zásad, seznamy blokovaných pro konkrétní kategorie obsahu a transformace zajišťující soulad výzev s pokyny.

Navzdory svým pokrokům má DALL-E 3 omezení v chápání prostorových vztahů, přesné vykreslování dlouhého textu a generování specifických snímků. OpenAI uznává tyto výzvy a pracuje na vylepšeních pro budoucí verze.

Společnost také pracuje na způsobech, jak odlišit obrázky generované umělou inteligencí od obrázků vytvořených lidmi, což odráží jejich závazek k transparentnosti a zodpovědnému používání umělé inteligence.

DALL E 3

DALL-E 3, nejnovější verze, bude k dispozici ve fázích počínaje specifickými skupinami zákazníků a později se rozšíří na výzkumné laboratoře a služby API. Datum bezplatného zveřejnění však zatím není potvrzeno.

OpenAI skutečně nastavuje nový standard v oblasti umělé inteligence s DALL-E 3, hladce spojuje složité technické možnosti a uživatelsky přívětivá rozhraní. Integrace DALL-E 3 do široce používaných platforem, jako je Bing, odráží posun od specializovaných aplikací k širším, dostupnějším formám zábavy a užitku.

Skutečnou změnou hry v nadcházejících letech bude pravděpodobně rovnováha mezi inovacemi a posílením postavení uživatelů. Společnosti, kterým se bude dařit, budou ty, které nejen posouvají hranice toho, čeho může AI dosáhnout, ale také poskytují uživatelům autonomii a kontrolu, po které touží. OpenAI se svým závazkem k etické umělé inteligenci prochází touto cestou opatrně. Cíl je jasný: vytvořit nástroje umělé inteligence, které budou nejen výkonné, ale také důvěryhodné a inkluzivní a zajistí, že výhody umělé inteligence budou dostupné všem.

Nahoru Další

Analogické a krokové výzvy: Ponořte se do nedávných pokroků od Google DeepMind

Nenechte si ujít

Okamžité hackování a zneužití LLM

Aayush Mittal

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.

Unite.AI

Bližší pohled na OpenAI DALL-E 3

Prompt Engineering

Bližší pohled na OpenAI DALL-E 3

Obsah

Vzestup modelů difúze

Generativní modelování a vrstvy sebepozornosti: DALL-E 3

Výzvy a řešení v generování obrazu

Vylepšení titulků: Nový přístup

Školení o syntetických datech

Hodnocení DALL-E 3

DALL-E 3 Výzvy a schopnosti

Omezení a rizika DALL-E 3

Poslední příspěvky

Unite.AI

Bližší pohled na OpenAI DALL-E 3

Obsah

Vzestup modelů difúze

Generativní modelování a vrstvy sebepozornosti: DALL-E 3

Výzvy a řešení v generování obrazu

Vylepšení titulků: Nový přístup

Školení o syntetických datech

Hodnocení DALL-E 3

DALL-E 3 Výzvy a schopnosti

Omezení a rizika DALL-E 3

Můžete se vám líbit

Poslední příspěvky