Prompt engineering

O privire mai atentă asupra DALL-E 3 de la OpenAI

Published October 31, 2023

Updated April 24, 2026

Aayush Mittal Mittal

În lumea AI Generativ, a fi la curent cu ultimele noutăți este jocul. Și atunci când vine vorba de generarea de imagini, Stable Diffusion și Midjourney erau platformele despre care toată lumea vorbea – până acum.

OpenAI, sprijinit de gigantul tech Microsoft, a introdus DALL·E 3 pe 20 septembrie 2023.

DALL-E 3 nu este doar despre crearea de imagini; este despre aducerea ideilor tale la viață, exact așa cum le-ai imaginat. Și cel mai bun lucru? Este rapid, foarte rapid. Ai o idee, o hrănești cu DALL-E 3 și boom, imaginea ta este gata.

Așadar, în acest articol, vom explora în profunzime ce este DALL-E 3. Vom discuta despre modul în care funcționează, ce îl diferențiază de restul și de ce ar putea fi exact instrumentul de care ai nevoie. Indiferent dacă ești designer, artist sau pur și simplu o persoană cu multe idei cool, vei vrea să rămâi pe pagina noastră. Hai să începem.

Ce este nou cu DALL·E 3 este că înțelege contextul mult mai bine decât DALL·E 2. Versiunile anterioare ar fi putut să rateze unele detalii sau să ignore câteva detalii de aici și de acolo, dar DALL·E 3 este punctul. Acesta captează exact detaliile a ceea ce ceri, oferindu-ți o imagine care este mai aproape de ceea ce ai imaginat.

Partea cool? DALL·E 3 și ChatGPT sunt acum integrate împreună. Ei lucrează împreună pentru a-ți rafina ideile. Îți propui un concept, ChatGPT te ajută la fine-tuningul promptului, iar DALL·E 3 îl aduce la viață. Dacă nu îți place imaginea, poți cere ChatGPT să ajusteze promptul și să facă DALL·E 3 să încerce din nou. Pentru o taxă lunară de 20$, ai acces la GPT-4, DALL·E 3 și multe alte funcții cool.

Bing Chat de la Microsoft a obținut acces la DALL·E 3 chiar înainte ca ChatGPT de la OpenAI să o facă, iar acum nu este doar despre marile întreprinderi, ci despre oricine care poate să se joace cu el gratuit. Integrarea în Bing Chat și Bing Image Creator face ca acesta să fie mult mai ușor de utilizat pentru oricine.

Ridicarea modelului de difuzie

În ultimii 3 ani, inteligența artificială vizuală a asistat la apariția modelului de difuzie, făcând un salt semnificativ înainte, în special în generarea de imagini. Înainte de modelele de difuzie, Rețelele Adversative Generative (GANs) erau tehnologia de bază pentru generarea de imagini realiste.

GANs

Cu toate acestea, ele aveau propriile provocări, incluzând nevoia de cantități uriașe de date și putere de calcul, ceea ce le făcea adesea dificil de manevrat.

Intră modelele de difuzie. Acestea au apărut ca o alternativă mai stabilă și mai eficientă decât GANs. În contrast cu GANs, modelele de difuzie funcționează prin adăugarea de zgomot la date, ascunzându-le până când nu rămâne decât aleatoriu. Apoi, acestea lucrează în sens invers pentru a inversa acest proces, reconstruind date semnificative din zgomot. Acest proces s-a dovedit a fi eficient și mai puțin intensiv din punct de vedere al resurselor, făcând modelele de difuzie un subiect fierbinte în comunitatea AI.

Punctul de cotitură a venit în jurul anului 2020, cu o serie de articole inovatoare și introducerea tehnologiei CLIP de la OpenAI, care a avansat semnificativ capacitățile modelelor de difuzie. Acest lucru le-a făcut pe modelele de difuzie excepțional de bune la sinteza text-imagin, permițându-le să genereze imagini realiste din descrieri textuale. Aceste progrese nu au fost doar în generarea de imagini, ci și în domenii precum compoziția muzicală și cercetarea biomedicală.

Astăzi, modelele de difuzie nu sunt doar un subiect de interes academic, ci sunt folosite în scenarii practice, din lumea reală.

Modelarea generativă și straturile de autoatenție: DALL-E 3

Sursă

Una dintre avansările critice în acest domeniu a fost evoluția modelării generative, cu abordări bazate pe eșantionare, precum modelarea generativă autoregresivă și procesele de difuzie, care au condus drumul. Acestea au transformat modelele text-imagin, ducând la îmbunătățiri semnificative ale performanței. Prin descompunerea generării de imagini în pași discreți, aceste modele au devenit mai tratabile și mai ușor de învățat pentru rețelele neuronale.

În paralel, utilizarea straturilor de autoatenție a jucat un rol crucial. Aceste straturi, împachetate împreună, au ajutat la generarea de imagini fără nevoia de prejudecăți spațiale implicite, o problemă comună cu convoluțiile. Acest transfer a permis modelor text-imagin să se extindă și să se îmbunătățească în mod fiabil, datorită proprietăților de scalare bine înțelese ale transformatorilor.

Provocări și soluții în generarea de imagini

În ciuda acestor progrese, controlabilitatea în generarea de imagini rămâne o provocare. Probleme precum urmărirea promptului, în care modelul nu poate urma îndeaproape textul de intrare, au fost prevalente. Pentru a aborda aceasta, au fost propuse abordări noi, precum îmbunătățirea captionării, menite să îmbunătățească calitatea perechilor text-imagin în seturile de date de antrenament.

Îmbunătățirea captionării: O abordare nouă

Îmbunătățirea captionării implică generarea de captionări de calitate superioară pentru imagini, ceea ce, la rândul său, ajută la antrenarea unor modele text-imagin mai precise. Acest lucru se realizează printr-un captionator de imagini robust care produce descrieri detaliate și precise ale imaginilor. Prin antrenarea cu aceste captionări îmbunătățite, DALL-E 3 a putut obține rezultate remarcabile, asemănătoare cu fotografiile și lucrările de artă produse de oameni.

Antrenarea pe date sintetice

Conceptul de antrenare pe date sintetice nu este nou. Cu toate acestea, contribuția unică aici este în crearea unui sistem de captionare a imaginilor nou și descriptiv. Impactul utilizării captionărilor sintetice pentru antrenarea modelor generative a fost substanțial, ducând la îmbunătățiri ale capacității modelului de a urma prompturile în mod precis.

Evaluarea DALL-E 3

Prin multiple evaluări și comparații cu modele anterioare, precum DALL-E 2 și Stable Diffusion XL, DALL-E 3 a demonstrat o performanță superioară, în special în sarcinile legate de urmărirea prompturilor.

Compararea modelelor text-imagin pe diverse evaluări

Utilizarea evaluărilor automate și a benchmark-urilor a oferit dovezi clare ale capacităților sale, consolidând poziția sa ca generator text-imagin de ultimă generație.

Prompturi și capacități DALL-E 3

DALL-E 3 oferă o abordare mai logică și rafinată pentru crearea de imagini. Pe măsură ce derulați, veți observa cum DALL-E creează fiecare imagine, cu o combinație de acuratețe și imaginație care răsună cu promptul dat.

În contrast cu predecesorul său, această versiune îmbunătățită excelează în aranjarea obiectelor într-o scenă și în reprezentarea trăsăturilor umane cu acuratețe, până la numărul corect de degete de la mână. Îmbunătățirile se extind la detalii fine și sunt acum disponibile la o rezoluție mai mare, asigurând un output mai realist și profesional.

Capacitățile de renderizare a textului au fost, de asemenea, substanțial îmbunătățite. În timp ce versiunile anterioare DALL-E produceau texte fără sens, DALL-E 3 poate genera texte lizibile și stilizate profesional (uneori), și chiar logo-uri curate ocazional.

Înțelegerea modelului pentru cereri de imagini complexe și nuanțate a fost semnificativ îmbunătățită. DALL-E 3 poate urma acum descrieri detaliate, chiar și în scenarii cu multiple elemente și instrucțiuni specifice, demonstrând capacitatea sa de a produce imagini coerente și bine compuse. Să explorăm câteva prompturi și ieșirile corespunzătoare pe care le-am obținut:

Proiectează ambalajul pentru o linie de ceaiuri organice. Include spațiu pentru numele produsului și descriere.

Imagini DALL-E 3 generate pe baza prompturilor text (Notă: afișul din stânga are ortografie greșită)

Creează un banner web care anunță o vânzare de vară pentru mobilier de exterior. Imaginea prezintă o scenă de plajă cu diverse piese de mobilier de exterior și text care anunță 'Economii uriașe de vară!'

Imagini DALL-E 3 generate pe baza prompturilor text

Un poster de călătorie vintage al Parisului cu text îndrăzneț și stilizat care spune 'Vizitează Paris' la bază.

Imagini DALL-E 3 generate pe baza prompturilor text (Notă: ambele postere au ortografie greșită)

O scenă aglomerată a festivalului Diwali în India, cu familii care aprind lămpi, artificii în cer și dulciuri și decorațiuni tradiționale.

Imagini DALL-E 3 generate pe baza prompturilor text

O piață detaliată din Roma antică, cu oameni îmbrăcați în haine din perioada respectivă, diverse mărfuri pentru vânzare și arhitectură din acea perioadă.

Imagini DALL-E 3 generate pe baza prompturilor text

Generează o imagine a unei personalități istorice celebre, precum Cleopatra sau Leonardo da Vinci, plasată într-un mediu contemporan, utilizând tehnologie modernă precum smartphone-uri sau laptopuri.

Imagini DALL-E 3 generate pe baza prompturilor text

Limitări și riscuri ale DALL-E 3

OpenAI a luat măsuri semnificative pentru a filtra conținutul explicit din datele de antrenament DALL-E 3, scopul fiind de a reduce prejudecățile și de a îmbunătăți ieșirile modelului. Acest lucru include aplicarea unor filtre specifice pentru categoriile de conținut sensibile și o revizuire a pragurilor pentru filtrele mai largi. Stiva de atenuare include, de asemenea, mai multe straturi de protecție, cum ar fi mecanismele de refuz în ChatGPT pentru subiecte sensibile, clasificatorii de intrare de prompt pentru a preveni încălcarea politicii, listele de blocare pentru anumite categorii de conținut și transformări pentru a asigura că prompturile se aliniază cu ghidurile.

În ciuda progreselor sale, DALL-E 3 are limitări în înțelegerea relațiilor spațiale, în renderizarea textului lung cu acuratețe și în generarea unor imagini specifice. OpenAI recunoaște aceste provocări și lucrează la îmbunătățiri pentru versiunile viitoare.

Compania lucrează, de asemenea, la modalități de a diferenția imaginile generate de AI de cele create de oameni, reflectând angajamentul lor față de transparență și utilizarea responsabilă a AI.

DALL·E 3

DALL-E 3, cea mai recentă versiune, va fi disponibilă în faze, începând cu anumite grupuri de clienți și extinzându-se ulterior la laboratoare de cercetare și servicii API. Cu toate acestea, o dată de lansare publică gratuită nu a fost confirmată încă.

OpenAI stabilește cu adevărat un nou standard în domeniul AI cu DALL-E 3, reunind în mod fluent capacități tehnice complexe și interfețe utilizator prietenoase. Integrarea DALL-E 3 în platforme larg utilizate precum Bing reflectă o schimbare de la aplicații specializate către forme mai largi și mai accesibile de divertisment și utilitate.

Adevăratul câștigător în următorii ani va fi probabil echilibrul dintre inovație și autonomia utilizatorului. Companiile care vor prospera vor fi cele care nu numai că vor împinge limitele a ceea ce poate realiza AI-ul, ci vor oferi utilizatorilor și autonomia și controlul pe care îl doresc. OpenAI, cu angajamentul său față de AI etic, navighează cu atenție pe acest drum. Scopul este clar: să creeze unelte AI care nu sunt doar puternice, ci și de încredere și incluzive, asigurând că beneficiile AI sunt accesibile tuturor.

Aayush Mittal

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Învățării Automate și a Învățării Profunde. Pasiunea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și spre Procesarea Limbajului Natural, un domeniu pe care sunt dornic să-l explorez mai departe.

Unite.AI

O privire mai atentă asupra DALL-E 3 de la OpenAI

Ridicarea modelului de difuzie

Modelarea generativă și straturile de autoatenție: DALL-E 3

Provocări și soluții în generarea de imagini

Îmbunătățirea captionării: O abordare nouă

Antrenarea pe date sintetice

Evaluarea DALL-E 3

Prompturi și capacități DALL-E 3

Limitări și riscuri ale DALL-E 3

You may like