Snabb ingenjörskonst

En närmare titt på OpenAI:s DALL-E 3

publicerade

7 månader sedan

Oktober 31, 2023

I Generativ AI världen, hänga med i det senaste är namnet på spelet. Och när det gäller att generera bilder, stabil diffusion och midjourney var plattformen alla pratade om – fram till nu.

OpenAI, med stöd av teknikjätten Microsoft, introducerades DALL E 3 i september 20th, 2023.

DALL-E 3 handlar inte bara om att skapa bilder; det handlar om att förverkliga dina idéer, precis som du föreställt dig dem. Och den bästa delen? Det är snabbt, liksom, riktigt snabbt. Du har en idé, du matar den till DALL-E 3, och boom, din bild är klar.

Så i den här artikeln kommer vi att dyka djupt in i vad DALL-E 3 handlar om. Vi kommer att prata om hur det fungerar, vad som skiljer det från resten och varför det kanske bara är verktyget du inte visste att du behövde. Oavsett om du är en designer, en konstnär eller bara någon med många coola idéer, kommer du att vilja stanna kvar för detta. Låt oss börja.

Det som är nytt med DALL·E 3 är att det får kontext mycket bättre än DALL·E 2. Tidigare versioner kan ha missat vissa detaljer eller ignorerat några detaljer här och där, men DALL·E 3 är på plats. Den tar upp de exakta detaljerna i det du frågar efter, vilket ger dig en bild som är närmare vad du föreställt dig.

Den coola delen? DALL·E 3 och ChatGPT är nu integrerade tillsammans. De arbetar tillsammans för att förfina dina idéer. Du fotograferar ett koncept, ChatGPT hjälper till att finjustera prompten, och DALL·E 3 gör det till liv. Om du inte är ett fan av bilden kan du be ChatGPT att justera uppmaningen och få DALL·E 3 att försöka igen. För en månadsavgift på 20$ får du tillgång till GPT-4, DALL·E 3 och många andra coola funktioner.

Microsofts bingchat fick tag på DALL·E 3 redan innan OpenAIs ChatGPT gjorde det, och nu är det inte bara de stora företagen utan alla som får leka med det gratis. Integrationen i Bing Chat och Bing Image Creator gör det mycket lättare att använda för alla.

The Rise of Diffusion Models

Under de senaste 3 åren har vision AI sett uppkomsten av diffusionsmodeller, vilket tagit ett betydande steg framåt, särskilt när det gäller bildgenerering. Innan diffusionsmodeller, Generativa kontroversiella nätverk (GAN) var den bästa tekniken för att skapa realistiska bilder.

GAN

Men de hade sin del av utmaningarna inklusive behovet av stora mängder data och beräkningskraft, vilket ofta gjorde dem svåra att hantera.

ange sändning modeller. De dök upp som ett mer stabilt och effektivt alternativ till GAN. Till skillnad från GAN:er fungerar diffusionsmodeller genom att lägga till brus till data, dölja det tills endast slumpmässighet återstår. De arbetar sedan bakåt för att vända denna process och rekonstruerar meningsfull data från bruset. Denna process har visat sig vara effektiv och mindre resurskrävande, vilket gör diffusionsmodeller till ett hett ämne i AI-gemenskapen.

Den verkliga vändpunkten kom runt 2020, med en serie innovativa papper och introduktionen av OpenAI:s KLIP teknologi, som avsevärt förbättrade diffusionsmodellernas möjligheter. Detta gjorde diffusionsmodeller exceptionellt bra på text-till-bild-syntes, vilket gjorde att de kunde generera realistiska bilder från textbeskrivningar. Dessa genombrott var inte bara i bildgenerering, utan också inom områden som musikkomposition och biomedicinsk forskning.

Idag är diffusionsmodeller inte bara ett ämne av akademiskt intresse utan används i praktiska scenarier i verkligheten.

Generativ modellering och självuppmärksamhetsskikt: DALL-E 3

Källa

En av de kritiska framstegen inom detta område har varit utvecklingen av generativ modellering, med provtagningsbaserade tillvägagångssätt som autoregressiv generativ modellering och diffusionsprocesser som leder vägen. De har transformerat text-till-bild-modeller, vilket lett till drastiska prestandaförbättringar. Genom att dela upp bildgenerering i diskreta steg har dessa modeller blivit mer lättlästa och lättare för neurala nätverk att lära sig.

Parallellt har användandet av självuppmärksamhetsskikt spelat en avgörande roll. Dessa lager, staplade tillsammans, har hjälpt till att generera bilder utan behov av implicita rumsliga fördomar, ett vanligt problem med faltningar. Denna förändring har gjort det möjligt för text-till-bild-modeller att skalas och förbättras på ett tillförlitligt sätt, på grund av transformatorernas välförstådda skalningsegenskaper.

Utmaningar och lösningar inom bildgenerering

Trots dessa framsteg är kontrollerbarheten i bildgenerering fortfarande en utmaning. Frågor som snabbföljning, där modellen kanske inte ansluter sig till inmatningstexten, har varit vanliga. För att ta itu med detta har nya tillvägagångssätt som förbättring av bildtexter föreslagits, som syftar till att förbättra kvaliteten på text- och bildparningar i träningsdatauppsättningar.

Bildtext Förbättring: A Novel Approach

Förbättring av bildtexter innebär att skapa bildtexter av bättre kvalitet för bilder, vilket i sin tur hjälper till att träna mer exakta text-till-bild-modeller. Detta uppnås genom en robust bildtext som producerar detaljerade och korrekta beskrivningar av bilder. Genom att träna på dessa förbättrade bildtexter har DALL-E 3 kunnat uppnå anmärkningsvärda resultat som nära liknar fotografier och konstverk producerade av människor.

Utbildning om syntetiska data

Konceptet att träna på syntetisk data är inte nytt. Men det unika bidraget här är skapandet av ett nytt, beskrivande bildtextningssystem. Effekten av att använda syntetiska bildtexter för att träna generativa modeller har varit betydande, vilket har lett till förbättringar i modellens förmåga att följa uppmaningar exakt.

Utvärdera DALL-E 3

Genom flera utvärderingar och jämförelser med tidigare modeller som DALL-E 2 och Stable Diffusion XL, har DALL-E 3 visat överlägsen prestanda, särskilt i uppgifter relaterade till snabb följning.

Jämförelse av text-till-bild-modeller på olika utvärderingar

Användningen av automatiserade utvärderingar och riktmärken har gett tydliga bevis på dess kapacitet, vilket befäst dess position som en toppmodern text-till-bild-generator.

DALL-E 3 Uppmaningar och förmågor

DALL-E 3 erbjuder ett mer logiskt och raffinerat tillvägagångssätt för att skapa bilder. När du bläddrar igenom kommer du att märka hur DALL-E skapar varje bild, med en blandning av noggrannhet och fantasi som resonerar med den givna uppmaningen.

Till skillnad från sin föregångare utmärker sig den här uppgraderade versionen i att arrangera objekt naturligt i en scen och avbilda mänskliga drag exakt, ner till rätt antal fingrar på en hand. Förbättringarna sträcker sig till finare detaljer och är nu tillgängliga i en högre upplösning, vilket säkerställer en mer realistisk och professionell utskrift.

Möjligheterna för textåtergivning har också förbättrats avsevärt. Där DALL-E tidigare versioner producerade skrattretande text, kan DALL-E 3 nu generera läsbara och professionellt utformade bokstäver (ibland), och även rena logotyper ibland.

Modellens förståelse för komplexa och nyanserade bildförfrågningar har förbättrats avsevärt. DALL-E 3 kan nu exakt följa detaljerade beskrivningar, även i scenarier med flera element och specifika instruktioner, vilket visar sin förmåga att producera sammanhängande och välkomponerade bilder. Låt oss utforska några uppmaningar och respektive utdata vi fick:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3-bilder baserade på textuppmaningar (Observera att den vänstra affischen har fel stavning)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3-bilder baserade på textuppmaningar

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3-bilder baserade på textuppmaningar (Observera att båda affischerna har fel stavningar)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3-bilder baserade på textuppmaningar

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3-bilder baserade på textuppmaningar

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3-bilder baserade på textuppmaningar

Begränsningar och risk för DALL-E 3

OpenAI har tagit betydande steg för att filtrera explicit innehåll från DALL-E 3:s träningsdata, i syfte att minska fördomar och förbättra modellens output. Detta inkluderar tillämpning av specifika filter för känsliga innehållskategorier och en översyn av tröskelvärden för bredare filter. Begränsningsstacken innehåller också flera lager av skyddsåtgärder, såsom avslagsmekanismer i ChatGPT för känsliga ämnen, snabbinmatningsklassificerare för att förhindra policyöverträdelser, blockeringslistor för specifika innehållskategorier och omvandlingar för att säkerställa att meddelanden överensstämmer med riktlinjerna.

Trots sina framsteg har DALL-E 3 begränsningar när det gäller att förstå rumsliga relationer, rendera lång text korrekt och generera specifika bilder. OpenAI erkänner dessa utmaningar och arbetar med förbättringar för framtida versioner.

Företaget arbetar också på sätt att skilja AI-genererade bilder från de som är gjorda av människor, vilket återspeglar deras engagemang för transparens och ansvarsfull AI-användning.

DALL E 3

DALL-E 3, den senaste versionen, kommer att finnas tillgänglig i faser som börjar med specifika kundgrupper och utökas senare till forskningslabb och API-tjänster. Ett gratis offentligt releasedatum är dock inte bekräftat ännu.

OpenAI sätter verkligen en ny standard inom AI med DALL-E 3, som sömlöst överbryggar komplexa tekniska möjligheter och användarvänliga gränssnitt. Integreringen av DALL-E 3 i allmänt använda plattformar som Bing återspeglar ett skifte från specialiserade applikationer till bredare, mer tillgängliga former av underhållning och nytta.

Den verkliga spelomvandlaren under de kommande åren kommer sannolikt att vara balansen mellan innovation och användarinflytande. Företag som frodas kommer att vara de som inte bara tänjer på gränserna för vad AI kan uppnå, utan också ger användarna den autonomi och kontroll de önskar. OpenAI, med sitt engagemang för etisk AI, navigerar denna väg noggrant. Målet är tydligt: att skapa AI-verktyg som inte bara är kraftfulla, utan också pålitliga och inkluderande, för att säkerställa att fördelarna med AI är tillgängliga för alla.

Strax

Analogiskt och steg tillbaka: en dykning i de senaste framstegen av Google DeepMind

Missa inte

Snabb hackning och missbruk av LLM:er

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.

Unite.AI

En närmare titt på OpenAI:s DALL-E 3

Snabb ingenjörskonst

En närmare titt på OpenAI:s DALL-E 3

Innehållsförteckning

The Rise of Diffusion Models

Generativ modellering och självuppmärksamhetsskikt: DALL-E 3

Utmaningar och lösningar inom bildgenerering

Bildtext Förbättring: A Novel Approach

Utbildning om syntetiska data

Utvärdera DALL-E 3

DALL-E 3 Uppmaningar och förmågor

Begränsningar och risk för DALL-E 3

Nya Inlägg

Unite.AI

En närmare titt på OpenAI:s DALL-E 3

Innehållsförteckning

The Rise of Diffusion Models

Generativ modellering och självuppmärksamhetsskikt: DALL-E 3

Utmaningar och lösningar inom bildgenerering

Bildtext Förbättring: A Novel Approach

Utbildning om syntetiska data

Utvärdera DALL-E 3

DALL-E 3 Uppmaningar och förmågor

Begränsningar och risk för DALL-E 3

Du må gilla

Nya Inlägg