Hurtig teknik
Et nærmere kig på OpenAI's DALL-E 3

I Generativ AI verden, at følge med i det seneste er navnet på spillet. Og når det kommer til at generere billeder, stabil diffusion og midt på rejsen var den platform, alle talte om – indtil nu.
OpenAI, støttet af teknologigiganten Microsoft, introducerede DALL E 3 i september 20th, 2023.
DALL-E 3 handler ikke bare om at skabe billeder; det handler om at bringe dine ideer til live, præcis som du forestillede dig dem. Og det bedste af det? Det er hurtigt, altså, virkelig hurtigt. Du har en idé, du sender den til DALL-E 3, og boom, dit billede er klar.
Så i denne artikel vil vi dykke dybt ned i, hvad DALL-E 3 handler om. Vi vil tale om, hvordan det fungerer, hvad der adskiller det fra resten, og hvorfor det måske lige er det værktøj, du ikke vidste, du havde brug for. Uanset om du er designer, kunstner eller bare en med en masse fede ideer, vil du gerne blive ved med at bruge det. Lad os komme i gang.
Det nye ved DALL·E 3 er, at den får kontekst meget bedre end DALL·E 2. Tidligere versioner har måske overset nogle specifikke detaljer eller ignoreret et par detaljer hist og her, men DALL·E 3 er helt perfekt. Den opfanger de præcise detaljer i det, du beder om, og giver dig et billede, der er tættere på det, du forestillede dig.
Den fede del? DALL·E 3 og ChatGPT er nu integreret sammen. De arbejder sammen for at forfine dine ideer. Du optager et koncept, ChatGPT hjælper med at finjustere prompten, og DALL·E 3 vækker den til live. Hvis du ikke er fan af billedet, kan du bede ChatGPT om at finjustere prompten og få DALL·E 3 til at prøve igen. For et månedligt gebyr på 20$ får du adgang til GPT-4, DALL·E 3 og mange andre fede funktioner.
Microsofts bingchat fik fat i DALL·E 3, selv før OpenAI's ChatGPT, og nu er det ikke kun de store virksomheder, men alle, der kan lege med det gratis. Integrationen i Bing Chat og Bing Image Creator gør det meget nemmere for alle at bruge.
Fremkomsten af ​​diffusionsmodeller
I de sidste 3 år har vision AI været vidne til fremkomsten af ​​diffusionsmodeller, hvilket tager et betydeligt spring fremad, især inden for billedgenerering. Før diffusionsmodeller, Generative Adversarial Networks (GAN'er) var go-to-teknologien til at generere realistiske billeder.
De havde dog deres del af udfordringer, herunder behovet for store mængder data og regnekraft, hvilket ofte gjorde dem vanskelige at håndtere.
Indtast diffusion modeller. De opstod som et mere stabilt og effektivt alternativ til GAN'er. I modsætning til GAN'er fungerer diffusionsmodeller ved at tilføje støj til data og skjule dem, indtil der kun er tilfældighed tilbage. De arbejder derefter baglæns for at vende denne proces og rekonstruerer meningsfulde data fra støjen. Denne proces har vist sig at være effektiv og mindre ressourcekrævende, hvilket gør diffusionsmodeller til et varmt emne i AI-samfundet.
Det virkelige vendepunkt kom omkring 2020, med en række innovative papirer og introduktionen af OpenAI's CLIP teknologi, som forbedrede diffusionsmodellernes muligheder betydeligt. Dette gjorde diffusionsmodellerne exceptionelt gode til tekst-til-billede-syntese, hvilket gjorde det muligt for dem at generere realistiske billeder ud fra tekstlige beskrivelser. Disse gennembrud var ikke kun inden for billedgenerering, men også inden for områder som musik komposition og biomedicinsk forskning.
I dag er diffusionsmodeller ikke kun et emne af akademisk interesse, men bliver brugt i praktiske scenarier i den virkelige verden.
Generativ modellering og selvopmærksomhedslag: DALL-E 3
Et af de kritiske fremskridt på dette område har været udviklingen af ​​generativ modellering, med prøveudtagningsbaserede tilgange som autoregressiv generativ modellering og diffusionsprocesser førende. De har transformeret tekst-til-billede-modeller, hvilket har ført til drastiske ydeevneforbedringer. Ved at opdele billedgenerering i diskrete trin er disse modeller blevet mere håndterbare og nemmere for neurale netværk at lære.
Sideløbende har brugen af ​​selvopmærksomhedslag spillet en afgørende rolle. Disse lag, stablet sammen, har hjulpet med at generere billeder uden behov for implicitte rumlige skævheder, et almindeligt problem med foldninger. Dette skift har gjort det muligt for tekst-til-billede-modeller at skalere og forbedre pålideligt på grund af transformatorernes velforståede skaleringsegenskaber.
Udfordringer og løsninger i billedgenerering
På trods af disse fremskridt er kontrollerbarhed i billedgenerering stadig en udfordring. Problemer som f.eks. prompt-følgning, hvor modellen muligvis ikke overholder inputteksten, har været fremherskende. For at imødegå dette er nye tilgange såsom forbedring af billedtekster blevet foreslået, rettet mod at forbedre kvaliteten af ​​tekst- og billedparringer i træningsdatasæt.
Billedtekst Forbedring: En ny tilgang
Forbedring af billedtekster involverer generering af billedtekster af bedre kvalitet til billeder, hvilket igen hjælper med at træne mere nøjagtige tekst-til-billede-modeller. Dette opnås gennem en robust billedtekster, der producerer detaljerede og nøjagtige beskrivelser af billeder. Ved at træne på disse forbedrede billedtekster har DALL-E 3 været i stand til at opnå bemærkelsesværdige resultater, der ligner fotografier og kunstværker produceret af mennesker.
Træning i syntetiske data
Konceptet med træning i syntetiske data er ikke nyt. Det unikke bidrag her er imidlertid skabelsen af ​​et nyt, beskrivende billedtekstsystem. Virkningen af ​​at bruge syntetiske billedtekster til træning af generative modeller har været betydelig, hvilket har ført til forbedringer i modellens evne til at følge prompts nøjagtigt.
Evaluering af DALL-E 3
Gennem flere evalueringer og sammenligninger med tidligere modeller som DALL-E 2 og Stable Diffusion XL, har DALL-E 3 vist overlegen ydeevne, især i opgaver relateret til hurtig efterfølgelse.
Brugen af ​​automatiserede evalueringer og benchmarks har givet klare beviser for dens muligheder, hvilket har styrket dens position som en avanceret tekst-til-billede-generator.
DALL-E 3 prompter og evner
DALL-E 3 tilbyder en mere logisk og raffineret tilgang til at skabe visuelle elementer. Når du scroller igennem, vil du bemærke, hvordan DALL-E skaber hvert billede med en blanding af præcision og fantasi, der afspejler den givne prompt.
I modsætning til sin forgænger udmærker denne opgraderede version sig ved at arrangere objekter naturligt i en scene og afbilde menneskelige træk nøjagtigt, ned til det korrekte antal fingre på en hånd. Forbedringerne strækker sig til finere detaljer og er nu tilgængelige i en højere opløsning, hvilket sikrer et mere realistisk og professionelt output.
Tekstgengivelsesmulighederne er også blevet forbedret betydeligt. Hvor tidligere versioner af DALL-E producerede vrøvl tekst, kan DALL-E 3 nu generere læselige og professionelt stilede bogstaver (nogle gange) og endda rene logoer af og til.
Modellens forståelse af komplekse og nuancerede billedanmodninger er blevet betydeligt forbedret. DALL-E 3 kan nu præcist følge detaljerede beskrivelser, selv i scenarier med flere elementer og specifikke instruktioner, hvilket demonstrerer dens evne til at producere sammenhængende og velkomponerede billeder. Lad os udforske nogle prompter og det respektive output, vi fik:
Design the packaging for a line of organic teas. Include space for the product name and description.
Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'
A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.
A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
Begrænsninger og risiko ved DALL-E 3
OpenAI har taget væsentlige skridt til at filtrere eksplicit indhold fra DALL-E 3's træningsdata med det formål at reducere skævheder og forbedre modellens output. Dette omfatter anvendelse af specifikke filtre for følsomme indholdskategorier og en revision af tærskler for bredere filtre. Afhjælpningsstakken inkluderer også flere lag af sikkerhedsforanstaltninger, såsom afvisningsmekanismer i ChatGPT for følsomme emner, prompt-inputklassifikatorer for at forhindre politikovertrædelser, blokeringslister for specifikke indholdskategorier og transformationer for at sikre, at prompter stemmer overens med retningslinjerne.
På trods af sine fremskridt har DALL-E 3 begrænsninger i forståelsen af ​​rumlige forhold, gengivelse af lang tekst nøjagtigt og generering af specifikke billeder. OpenAI anerkender disse udfordringer og arbejder på forbedringer til fremtidige versioner.
Virksomheden arbejder ogsĂĄ pĂĄ mĂĄder at differentiere AI-genererede billeder fra billeder lavet af mennesker, hvilket afspejler deres engagement i gennemsigtighed og ansvarlig brug af AI.
DALL-E 3, den seneste version, vil være tilgængelig i faser, startende med specifikke kundegrupper og senere udvidet til forskningslaboratorier og API-tjenester. En gratis offentlig udgivelsesdato er dog ikke bekræftet endnu.
OpenAI sætter virkelig en ny standard inden for kunstig intelligens med DALL-E 3, der problemfrit bygger bro over komplekse tekniske muligheder og brugervenlige grænseflader. Integrationen af ​​DALL-E 3 i udbredte platforme som Bing afspejler et skift fra specialiserede applikationer til bredere, mere tilgængelige former for underholdning og nytte.
Den virkelige game-changer i de kommende år vil sandsynligvis være balancen mellem innovation og brugerindflydelse. Virksomheder, der trives, vil være dem, der ikke kun flytter grænserne for, hvad AI kan opnå, men også giver brugerne den autonomi og kontrol, de ønsker. OpenAI, med sit engagement i etisk kunstig intelligens, navigerer denne vej omhyggeligt. Målet er klart: at skabe AI-værktøjer, der ikke bare er kraftfulde, men også pålidelige og inkluderende, hvilket sikrer, at fordelene ved AI er tilgængelige for alle.