Prompt engineering

En nærmere titt på OpenAI sin DALL-E 3

Publisert 31. oktober 2023

Oppdatert 22. mai 2026

Aayush Mittal Mittal

I den generative AI-verden er det viktig å holde seg oppdatert. Og når det kommer til å generere bilder, var Stable Diffusion og Midjourney plattformene alle snakket om – til nå.

OpenAI, støttet av teknologigiganten Microsoft, lanserte DALL·E 3 den 20. september 2023.

DALL-E 3 handler ikke bare om å lage bilder; det handler om å bringe dine ideer til live, akkurat som du forestiller deg dem. Og det beste er? Det er raskt, som, virkelig raskt. Du har en idé, du fôrer den til DALL-E 3, og bang, bildet ditt er klart.

Så, i denne artikkelen, skal vi dykke dypt inn i hva DALL-E 3 handler om. Vi skal snakke om hvordan det fungerer, hva som skiller det fra resten, og hvorfor det kan være verktøyet du ikke visste du trengte. Uansett om du er en designer, en kunstner eller bare noen med mange coole ideer, vil du ønske å bli med på denne turen. La oss komme i gang.

Hva som er nytt med DALL·E 3 er at det forstår konteksten mye bedre enn DALL·E 2. Tidligere versjoner kunne ha gått glipp av noen detaljer eller ignorert noen detaljer her og der, men DALL·E 3 er på poeng. Det fanger opp på de eksakte detaljene av hva du ber om, og gir deg et bilde som er nærmere det du forestiller deg.

Det coole er? DALL·E 3 og ChatGPT er nå integrert sammen. De arbeider sammen for å hjelpe med å finpusse dine ideer. Du skyter en konsept, ChatGPT hjelper med å finjustere prompten, og DALL·E 3 bringer det til live. Hvis du ikke er en fan av bildet, kan du be ChatGPT om å justere prompten og få DALL·E 3 til å prøve igjen. For en månedlig avgift på 20$, får du tilgang til GPT-4, DALL·E 3 og mange andre coole funksjoner.

Microsofts Bing Chat fikk tak i DALL·E 3 før OpenAIs ChatGPT gjorde, og nå er det ikke bare de store bedriftene, men alle som får mulighet til å leke med det gratis. Integreringen i Bing Chat og Bing Image Creator gjør det mye enklere å bruke for alle.

Oppsvinget til diffusjonsmodeller

I løpet av de siste tre årene har visjon AI sett oppsvinget til diffusjonsmodeller, som har tatt et betydelig skritt fremover, spesielt i bildegenerering. Før diffusjonsmodellene var Generative Adversarial Networks (GANs) teknologien for å generere realistiske bilder.

GANs

Men de hadde sine utfordringer, inkludert behovet for store mengder data og beregningskraft, som ofte gjorde dem vanskelige å håndtere.

Enter diffusjonsmodeller. De oppstod som en mer stabil og effektiv alternativ til GANs. I motsetning til GANs, opererer diffusjonsmodeller ved å legge til støy til data, forklore det til bare tilfeldighet gjenstår. De arbeider deretter bakover for å reversere denne prosessen, og rekonstruerer meningsfulle data fra støyen. Denne prosessen har vist seg å være effektiv og mindre ressurskrevende, og har gjort diffusjonsmodeller til et het tema i AI-samfunnet.

Det virkelige vendepunktet kom rundt 2020, med en rekke innovative artikler og introduksjonen av OpenAIs CLIP-teknologi, som betydelig forbedret diffusjonsmodellenes evner. Dette gjorde diffusjonsmodellene eksepsjonelt gode til tekst-til-bilde-syntese, og muliggjorde generering av realistiske bilder fra tekstlige beskrivelser. Disse gjennombruddene var ikke bare i bildegenerering, men også i felt som musikkkomposisjon og biomedisinsk forskning.

I dag er diffusjonsmodeller ikke bare et tema for akademisk interesse, men brukes også i praktiske, virkelige scenarier.

Generativ modellering og selv-oppmerksomhetslag: DALL-E 3

Kilde

En av de kritiske fremgangene i dette feltet har vært utviklingen av generativ modellering, med sampling-baserte tilnærminger som autoregressiv generativ modellering og diffusjonsprosesser som leder vei. De har forandret tekst-til-bilde-modeller, og ført til dramatiske ytelsesforbedringer. Ved å bryte ned bildegenerering i diskrete trinn, har disse modellene blitt mer håndterbare og enklere for neurale nettverk å lære.

I parallell har bruken av selv-oppmerksomhetslag spilt en avgjørende rolle. Disse lagene, stablet sammen, har hjulpet til å generere bilder uten implicit romlig bias, et vanlig problem med konvolusjoner. Denne skiftet har gjort det mulig for tekst-til-bilde-modeller å skala og forbedre pålitelig, takket være de godt forståtte skalaegenskapene til transformatorer.

Utfordringer og løsninger i bildegenerering

Tross disse fremgangene, forblir kontroll i bildegenerering en utfordring. Problemer som prompt-følging, hvor modellen kanskje ikke følger nøye tekst-input, har vært fremherskende. For å møte dette, er nye tilnærminger som kapittel-forbedring foreslått, med mål om å forbedre kvaliteten på tekst- og bilde-par i treningssett.

Kapittel-forbedring: En ny tilnærmning

Kapittel-forbedring innebærer å generere bedre kvalitet på kapittel for bilder, som igjen hjelper til å trene mer nøyaktige tekst-til-bilde-modeller. Dette oppnås gjennom en robust bilde-kapittel-generering som produserer detaljerte og nøyaktige beskrivelser av bilder. Ved å trene på disse forbedrede kapittelen, har DALL-E 3 oppnådd bemerkelsesverdige resultater, nært likt fotografier og kunstverk produsert av mennesker.

Trening på syntetisk data

Konseptet med å trene på syntetisk data er ikke nytt. Men den unike bidraget her er i skapelsen av en ny, beskrivende bilde-kapittel-system. Effekten av å bruke syntetiske kapittel for å trene generative modeller har vært betydelig, og har ført til forbedringer i modellens evne til å følge prompter nøyaktig.

Evaluering av DALL-E 3

Gjennom flere evalueringer og sammenligninger med tidligere modeller som DALL-E 2 og Stable Diffusion XL, har DALL-E 3 demonstrert overlegen ytelse, spesielt i oppgaver relatert til prompt-følging.

Sammenligning av tekst-til-bilde-modeller på ulike evalueringer

Bruken av automatiserte evalueringer og benchmark har gitt klare bevis på dens evner, og har fastslått dens posisjon som en ledende tekst-til-bilde-generering.

DALL-E 3 Prompts og evner

DALL-E 3 tilbyr en mer logisk og finjustert tilnærmning til å lage visuelle effekter. Mens du blar gjennom, vil du merke hvordan DALL-E designer hvert bilde, med en blanding av nøyaktighet og fantasi som resonnerer med den gitte prompten.

I motsetning til sin forgjenger, utmerker denne oppgraderte versjonen seg i å arrangere objekter naturlig innen en scene og å avbilde menneskelige trekk nøyaktig, ned til riktig antall fingre på en hånd. Forbedringene strekker seg til finere detaljer og er nå tilgjengelige i høyere oppløsning, og sikrer en mer realistisk og profesjonell utgang.

Tekst-rendering-kapasiteten har også sett betydelige forbedringer. Hvor tidligere versjoner av DALL-E produserte nonsens-tekst, kan DALL-E 3 nå generere leselige og profesjonelt stilte tekst (av og til), og sogar rene logoer av og til.

Modellens forståelse av komplekse og nyanserte bilde-forespørsler har blitt betydelig forbedret. DALL-E 3 kan nå følge detaljerte beskrivelser nøyaktig, selv i scenarier med flere elementer og spesifikke instruksjoner, og demonstrerer sin evne til å produsere kohrente og velkomponerte bilder. La oss utforske noen prompter og respektive utgang:

Design pakningen for en rekke økologiske teer. Inkluder plass for produkt navn og beskrivelse.

DALL-E 3 bilder basert på tekst-prompter (Merk at venstre plakat har feil staving)

Opprett en web-bannere som annonserer en sommer-salg på utendørs møbler. Bildet viser en strand-innstillinger med ulike utendørs møbler, og tekst som annonserer 'Huge Summer Savings!'

DALL-E 3 bilder basert på tekst-prompter

En vintage reiseplakat av Paris med bold og stilisert tekst som sier 'Visit Paris' nederst.

DALL-E 3 bilder basert på tekst-prompter (Merk at begge plakatene har feil staving)

Selskapet arbeider også med måter å differensiere AI-genererte bilder fra de som er laget av mennesker, og reflekterer deres forpliktelse til åpenhet og ansvarlig AI-bruk.

DALL·E 3

DALL-E 3, den nyeste versjonen, vil bli tilgjengelig i faser, startende med bestemte kundegrupper og senere utvides til forskningslab og API-tjenester. Men en gratis offentlig utgivelsesdato er ikke bekreftet ennå.

OpenAI setter en ny standard i AI-feltet med DALL-E 3, og broer komplekse tekniske evner og brukervennlige grensesnitt. Integreringen av DALL-E 3 i bredt brukte plattformer som Bing reflekterer en skift fra spesialiserte applikasjoner til bredere, mer tilgjengelige former for underholdning og nytte.

Det virkelige spillende i de kommende årene vil sannsynligvis være balansen mellom innovasjon og bruker-empowerment. Selskaper som trives vil være de som ikke bare skyver grensene for hva AI kan oppnå, men også gir brukerne autonomi og kontroll. OpenAI, med sin forpliktelse til etisk AI, navigerer denne veien forsiktig. Målet er klart: å skape AI-verktøy som ikke bare er kraftfulle, men også pålitelige og inkluderende, og sikrer at AI-nyttene er tilgjengelige for alle.

Aayush Mittal, Mittal

Jeg har brukt de siste fem årene på å dykke ned i den fasiniserende verden av Maskinlæring og Dypt Læring. Min lidenskap og ekspertise har ledet meg til å bidra til over 50 ulike programvareprosjekter, med særlig fokus på AI/ML. Min pågående nysgjørhet har også trukket meg mot Naturlig Språkbehandling, et felt jeg er ivrig etter å utforske videre.

Unite.AI