Rask Engineering

En nærmere titt på OpenAIs DALL-E 3

Publisert

7 måneder siden

Oktober 31, 2023

på Generativ AI verden, å følge med på det siste er navnet på spillet. Og når det kommer til å generere bilder, stabil diffusjon og midt på reisen var plattformen alle snakket om – til nå.

OpenAI, støttet av teknologigiganten Microsoft, introduserte DALL E 3 på september 20th, 2023.

DALL-E 3 handler ikke bare om å lage bilder; det handler om å bringe ideene dine ut i livet, akkurat slik du forestilte deg dem. Og den beste delen? Det er raskt, liksom, veldig raskt. Du har en idé, du mater den til DALL-E 3, og boom, bildet ditt er klart.

Så i denne artikkelen skal vi dykke dypt inn i hva DALL-E 3 handler om. Vi skal snakke om hvordan det fungerer, hva som skiller det fra resten, og hvorfor det kan være verktøyet du ikke visste at du trengte. Enten du er designer, kunstner eller bare noen med mange kule ideer, kommer du til å ønske å holde deg for dette. La oss komme i gang.

Det som er nytt med DALL·E 3 er at den får kontekst mye bedre enn DALL·E 2. Tidligere versjoner kan ha gått glipp av noen detaljer eller ignorert noen detaljer her og der, men DALL·E 3 er på punkt. Den fanger opp de nøyaktige detaljene i det du ber om, og gir deg et bilde som er nærmere det du forestilte deg.

Den kule delen? DALL·E 3 og ChatGPT er nå integrert sammen. De jobber sammen for å hjelpe til med å avgrense ideene dine. Du fotograferer et konsept, ChatGPT hjelper med å finjustere ledeteksten, og DALL·E 3 bringer det til live. Hvis du ikke er en fan av bildet, kan du be ChatGPT om å justere forespørselen og få DALL·E 3 til å prøve igjen. For en månedlig kostnad på 20$ får du tilgang til GPT-4, DALL·E 3 og mange andre kule funksjoner.

Microsofts bingchat fikk tak i DALL·E 3 selv før OpenAIs ChatGPT gjorde det, og nå er det ikke bare de store foretakene, men alle som får leke med det gratis. Integreringen i Bing Chat og Bing Image Creator gjør det mye enklere å bruke for alle.

The Rise of Diffusion Models

I løpet av de siste 3 årene har vision AI vært vitne til fremveksten av diffusjonsmodeller, og tatt et betydelig sprang fremover, spesielt innen bildegenerering. Før diffusjonsmodeller, Generative Adversarial Networks (GAN) var go-to-teknologien for å generere realistiske bilder.

Gans

Imidlertid hadde de sin del av utfordringer, inkludert behovet for enorme mengder data og beregningskraft, noe som ofte gjorde dem vanskelige å håndtere.

Enter kringkasting modeller. De dukket opp som et mer stabilt og effektivt alternativ til GAN-er. I motsetning til GAN-er, opererer diffusjonsmodeller ved å legge til støy til data, og skjuler dem inntil bare tilfeldighet gjenstår. De jobber deretter bakover for å reversere denne prosessen, og rekonstruerer meningsfulle data fra støyen. Denne prosessen har vist seg å være effektiv og mindre ressurskrevende, noe som gjør diffusjonsmodeller til et hett tema i AI-samfunnet.

Det virkelige vendepunktet kom rundt 2020, med en serie innovative artikler og introduksjonen av OpenAIs KLIP teknologi, som betydelig avanserte diffusjonsmodellenes evner. Dette gjorde diffusjonsmodeller eksepsjonelt gode på tekst-til-bilde-syntese, slik at de kunne generere realistiske bilder fra tekstbeskrivelser. Disse gjennombruddene var ikke bare innen bildegenerering, men også innen felt som musikkomposisjon og biomedisinsk forskning.

I dag er diffusjonsmodeller ikke bare et tema av akademisk interesse, men blir brukt i praktiske scenarier i den virkelige verden.

Generativ modellering og selvoppmerksomhetslag: DALL-E 3

kilde

Et av de kritiske fremskrittene på dette feltet har vært utviklingen av generativ modellering, med prøvetakingsbaserte tilnærminger som autoregressiv generativ modellering og diffusjonsprosesser som leder an. De har transformert tekst-til-bilde-modeller, noe som har ført til drastiske ytelsesforbedringer. Ved å bryte ned bildegenerering i diskrete trinn, har disse modellene blitt mer håndterbare og lettere for nevrale nettverk å lære.

Parallelt har bruken av selvoppmerksomhetslag spilt en avgjørende rolle. Disse lagene, stablet sammen, har hjulpet med å generere bilder uten behov for implisitte romlige skjevheter, et vanlig problem med konvolusjoner. Dette skiftet har gjort det mulig for tekst-til-bilde-modeller å skalere og forbedre pålitelig, på grunn av de velforståtte skaleringsegenskapene til transformatorer.

Utfordringer og løsninger i bildegenerering

Til tross for disse fremskrittene er kontrollerbarhet i bildegenerering fortsatt en utfordring. Problemer som forespørsler, der modellen kanskje ikke følger nøye med inndatateksten, har vært utbredt. For å løse dette, har nye tilnærminger som bildetekstforbedring blitt foreslått, rettet mot å forbedre kvaliteten på tekst- og bildesammenkoblinger i opplæringsdatasett.

Bildetekst Improvement: A Novel Approach

Forbedring av bildetekst innebærer å generere bildetekster av bedre kvalitet for bilder, som igjen hjelper til med å trene mer nøyaktige tekst-til-bilde-modeller. Dette oppnås gjennom en robust bildetekst som produserer detaljerte og nøyaktige beskrivelser av bilder. Ved å trene på disse forbedrede bildetekstene har DALL-E 3 vært i stand til å oppnå bemerkelsesverdige resultater, som ligner veldig på fotografier og kunstverk produsert av mennesker.

Opplæring i syntetiske data

Konseptet med opplæring på syntetiske data er ikke nytt. Det unike bidraget her er imidlertid å lage et nytt, beskrivende bildetekstsystem. Effekten av å bruke syntetiske bildetekster for å trene generative modeller har vært betydelig, noe som har ført til forbedringer i modellens evne til å følge meldinger nøyaktig.

Evaluering av DALL-E 3

Gjennom flere evalueringer og sammenligninger med tidligere modeller som DALL-E 2 og Stable Diffusion XL, har DALL-E 3 vist overlegen ytelse, spesielt i oppgaver knyttet til rask oppfølging.

Sammenligning av tekst-til-bilde-modeller på ulike evalueringer

Bruken av automatiserte evalueringer og benchmarks har gitt klare bevis på dens evner, og befestet dens posisjon som en toppmoderne tekst-til-bilde-generator.

DALL-E 3 ledetekster og evner

DALL-E 3 tilbyr en mer logisk og raffinert tilnærming til å lage bilder. Når du blar gjennom, vil du legge merke til hvordan DALL-E lager hvert bilde, med en blanding av nøyaktighet og fantasi som resonerer med den gitte oppfordringen.

I motsetning til forgjengeren, utmerker denne oppgraderte versjonen seg ved å arrangere objekter naturlig i en scene og avbilde menneskelige trekk nøyaktig, ned til riktig antall fingre på en hånd. Forbedringene strekker seg til finere detaljer og er nå tilgjengelig med høyere oppløsning, noe som sikrer en mer realistisk og profesjonell utgang.

Tekstgjengivelsesmulighetene har også blitt betydelig forbedret. Der tidligere versjoner av DALL-E produserte tulltekst, kan DALL-E 3 nå generere leselige og profesjonelt stilte bokstaver (noen ganger), og til og med rene logoer av og til.

Modellens forståelse av komplekse og nyanserte bildeforespørsler har blitt betydelig forbedret. DALL-E 3 kan nå nøyaktig følge detaljerte beskrivelser, selv i scenarier med flere elementer og spesifikke instruksjoner, og demonstrerer sin evne til å produsere sammenhengende og godt komponerte bilder. La oss utforske noen spørsmål og de respektive utdataene vi fikk:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3-bilder basert på tekstmeldinger (Merk at venstre plakat har feil stavemåte)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3-bilder basert på tekstmeldinger

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3-bilder basert på tekstmeldinger (Merk at begge plakatene har feil stavemåter)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3-bilder basert på tekstmeldinger

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3-bilder basert på tekstmeldinger

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3-bilder basert på tekstmeldinger

Begrensninger og risiko ved DALL-E 3

OpenAI har tatt betydelige skritt for å filtrere eksplisitt innhold fra DALL-E 3s treningsdata, med sikte på å redusere skjevheter og forbedre modellens produksjon. Dette inkluderer bruk av spesifikke filtre for sensitive innholdskategorier og en revisjon av terskler for bredere filtre. Reduseringsstakken inkluderer også flere lag med sikkerhetstiltak, for eksempel avvisningsmekanismer i ChatGPT for sensitive emner, forespørselsklassifiserere for å forhindre brudd på retningslinjene, blokkeringslister for spesifikke innholdskategorier og transformasjoner for å sikre at forespørsler er i tråd med retningslinjene.

Til tross for fremskritt, har DALL-E 3 begrensninger i å forstå romlige forhold, gjengi lang tekst nøyaktig og generere spesifikke bilder. OpenAI erkjenner disse utfordringene og jobber med forbedringer for fremtidige versjoner.

Selskapet jobber også med måter å skille AI-genererte bilder fra bilder laget av mennesker, noe som gjenspeiler deres forpliktelse til åpenhet og ansvarlig bruk av AI.

DALL E 3

DALL-E 3, den nyeste versjonen, vil være tilgjengelig i faser som starter med spesifikke kundegrupper og senere utvides til forskningslaboratorier og API-tjenester. En gratis offentlig utgivelsesdato er imidlertid ikke bekreftet ennå.

OpenAI setter virkelig en ny standard innen AI med DALL-E 3, som sømløst bygger bro over komplekse tekniske muligheter og brukervennlige grensesnitt. Integreringen av DALL-E 3 i mye brukte plattformer som Bing reflekterer et skifte fra spesialiserte applikasjoner til bredere, mer tilgjengelige former for underholdning og nytte.

Den virkelige gamechangeren i de kommende årene vil sannsynligvis være balansen mellom innovasjon og brukerstyrking. Bedrifter som trives vil være de som ikke bare flytter grensene for hva AI kan oppnå, men også gir brukerne den autonomien og kontrollen de ønsker. OpenAI, med sin forpliktelse til etisk AI, navigerer denne veien nøye. Målet er klart: å lage AI-verktøy som ikke bare er kraftige, men også pålitelige og inkluderende, for å sikre at fordelene med AI er tilgjengelige for alle.

Neste

Analogisk og tilbakevendende spørsmål: Et dykk i nyere fremskritt av Google DeepMind

Ikke gå glipp av

Rask hacking og misbruk av LLM-er

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.

Unite.AI

En nærmere titt på OpenAIs DALL-E 3

Rask Engineering

En nærmere titt på OpenAIs DALL-E 3

Innholdsfortegnelse

The Rise of Diffusion Models

Generativ modellering og selvoppmerksomhetslag: DALL-E 3

Utfordringer og løsninger i bildegenerering

Bildetekst Improvement: A Novel Approach

Opplæring i syntetiske data

Evaluering av DALL-E 3

DALL-E 3 ledetekster og evner

Begrensninger og risiko ved DALL-E 3

Seneste innlegg

Unite.AI

En nærmere titt på OpenAIs DALL-E 3

Innholdsfortegnelse

The Rise of Diffusion Models

Generativ modellering og selvoppmerksomhetslag: DALL-E 3

Utfordringer og løsninger i bildegenerering

Bildetekst Improvement: A Novel Approach

Opplæring i syntetiske data

Evaluering av DALL-E 3

DALL-E 3 ledetekster og evner

Begrensninger og risiko ved DALL-E 3

Du kan kanskje like

Seneste innlegg