Greita inžinerija

Atidžiau pažvelkite į OpenAI DALL-E 3

paskelbta

prieš 7 mėnesių

Spalis 31, 2023

Lauke Generatyvinis AI pasaulis, neatsilikti nuo naujausių yra žaidimo pavadinimas. O kalbant apie vaizdų generavimą, „Stable Diffusion“ ir Vidurinė kelionė buvo ta platforma, apie kurią visi kalbėjo – iki šiol.

Pristatytas „OpenAI“, kurį palaiko technologijų milžinė „Microsoft“. DALL E 3 20 m. rugsėjo 2023 d.

DALL-E 3 yra ne tik vaizdų kūrimas; tai jūsų idėjų įgyvendinimas taip, kaip jas įsivaizdavote. Ir geriausia dalis? Tai greita, pavyzdžiui, labai greita. Turite idėją, įkiškite ją į DALL-E 3 ir būk, jūsų vaizdas paruoštas.

Taigi, šiame straipsnyje mes pasinersime į tai, kas yra DALL-E 3. Pakalbėsime apie tai, kaip jis veikia, kuo jis išsiskiria iš kitų ir kodėl tai gali būti tik įrankis, kurio jums nereikėjo. Nesvarbu, ar esate dizaineris, menininkas ar tiesiog žmogus, turintis daug šaunių idėjų, norėsite to laikytis. Pradėkime.

DALL·E 3 naujovė yra ta, kad jis daug geriau supranta kontekstą nei DALL·E 2. Ankstesnėse versijose galėjo būti praleista kai kuri ypatybė arba kai kurios detalės čia ir ten buvo nepaisoma, tačiau DALL·E 3 tinka. Jis atrenka tikslią informaciją apie tai, ko prašote, ir pateikia vaizdą, artimesnį tam, ką įsivaizdavote.

Šauniausia dalis? DALL·E 3 ir ChatGPT dabar yra integruoti kartu. Jie dirba kartu, kad padėtų patobulinti jūsų idėjas. Jūs sukuriate koncepciją, ChatGPT padeda tiksliai sureguliuoti raginimą, o DALL·E 3 atgaivina. Jei nesate vaizdo gerbėjas, galite paprašyti ChatGPT pakoreguoti raginimą ir paprašyti DALL·E 3 bandyti dar kartą. Už 20 USD mėnesinį mokestį gausite prieigą prie GPT-4, DALL·E 3 ir daugelio kitų puikių funkcijų.

"Microsoft" bingchat DALL·E 3 pateko į rankas dar anksčiau nei tai padarė OpenAI ChatGPT, ir dabar su juo gali žaisti ne tik didelės įmonės, bet ir visi. Integravus į „Bing Chat“ ir „Bing Image Creator“, juo naudotis yra daug lengviau bet kam.

Difuzijos modelių atsiradimas

Per pastaruosius 3 metus vizijos AI liudija difuzijos modelių augimą ir padarė didelį šuolį į priekį, ypač kuriant vaizdus. Prieš difuzijos modelius, Generative Adversarial Networks (GAN) buvo tikroviškų vaizdų generavimo technologija.

GAN

Tačiau jie turėjo tam tikrų iššūkių, įskaitant didžiulio duomenų kiekio ir skaičiavimo galios poreikį, dėl kurio juos dažnai buvo sunku išspręsti.

įeiti transliavimas modeliai. Jie pasirodė kaip stabilesnė ir efektyvesnė GAN alternatyva. Skirtingai nei GAN, difuzijos modeliai veikia pridėdami triukšmo prie duomenų ir užstoja juos tol, kol lieka tik atsitiktinumas. Tada jie dirba atgal, kad pakeistų šį procesą, atkurdami reikšmingus duomenis iš triukšmo. Šis procesas pasirodė esąs efektyvus ir reikalaujantis mažiau išteklių, todėl difuzijos modeliai tapo karšta tema AI bendruomenėje.

Tikrasis lūžis įvyko apie 2020 m., kai buvo paskelbta daugybė naujoviškų straipsnių ir pristatyta OpenAI klipas technologija, kuri žymiai patobulino difuzijos modelių galimybes. Dėl to difuzijos modeliai buvo ypač gerai sintezuojami iš teksto į vaizdą, o tai leido jiems sukurti tikroviškus vaizdus iš tekstinių aprašymų. Šie laimėjimai buvo ne tik kuriant įvaizdį, bet ir tokiose srityse kaip muzikos kompozicija ir biomedicininiai tyrimai.

Šiandien difuzijos modeliai yra ne tik akademinio susidomėjimo tema, bet ir naudojami praktiniuose, realaus pasaulio scenarijuose.

Generatyvusis modeliavimas ir savęs dėmesio sluoksniai: DALL-E 3

Šaltinis

Vienas iš svarbiausių pasiekimų šioje srityje buvo generatyvinio modeliavimo raida, kai pirmauja atranka pagrįsti metodai, tokie kaip autoregresyvus generatyvinis modeliavimas ir difuzijos procesai. Jie pakeitė teksto į vaizdą modelius, todėl našumas smarkiai pagerėjo. Suskaidžius vaizdo generavimą į atskirus žingsnius, šie modeliai tapo lengviau valdomi ir lengviau išmokstami neuroniniams tinklams.

Tuo pačiu metu itin svarbų vaidmenį atliko dėmesio į save sluoksnių naudojimas. Šie sluoksniai, sukrauti kartu, padėjo generuoti vaizdus be numanomų erdvinių paklaidų, o tai yra dažna konvoliucijos problema. Dėl gerai suprantamų transformatorių mastelio keitimo savybių šis poslinkis leido teksto į vaizdą modeliams patikimai keisti mastelį ir tobulėti.

Vaizdų generavimo iššūkiai ir sprendimai

Nepaisant šios pažangos, vaizdo generavimo valdymas išlieka iššūkiu. Buvo paplitusios problemos, pvz., raginimas sekti, kai modelis gali nelabai laikytis įvesties teksto. Siekiant tai išspręsti, buvo pasiūlyti nauji metodai, tokie kaip antraščių tobulinimas, siekiant pagerinti teksto ir vaizdo porų kokybę mokymo duomenų rinkiniuose.

Antraštės tobulinimas: naujas požiūris

Antraštės tobulinimas apima geresnės kokybės vaizdų antraščių generavimą, o tai savo ruožtu padeda parengti tikslesnius teksto į vaizdą modelius. Tai pasiekiama naudojant tvirtą vaizdų antraštę, kuri pateikia išsamius ir tikslius vaizdų aprašymus. Mokydami šiuos patobulintus antraštes DALL-E 3 sugebėjo pasiekti puikių rezultatų, labai panašių į žmonių sukurtas nuotraukas ir meno kūrinius.

Mokymai apie sintetinius duomenis

Mokymo apie sintetinius duomenis koncepcija nėra nauja. Tačiau unikalus indėlis čia yra naujos aprašomosios vaizdų antraštės sistemos sukūrimas. Sintetinių antraščių naudojimas generuojamųjų modelių mokymui buvo didelis, todėl pagerėjo modelio gebėjimas tiksliai sekti raginimus.

DALL-E 3 vertinimas

Daugkartinis vertinimas ir palyginimas su ankstesniais modeliais, tokiais kaip DALL-E 2 ir Stable Diffusion XL, DALL-E 3 parodė puikų našumą, ypač atliekant užduotis, susijusias su greitu sekimu.

Teksto į vaizdą modelių palyginimas įvairiais vertinimais

Automatizuotų vertinimų ir etalonų naudojimas aiškiai įrodė jo galimybes ir sustiprino jos, kaip pažangiausio teksto į vaizdą generatoriaus, poziciją.

DALL-E 3 raginimai ir gebėjimai

DALL-E 3 siūlo logiškesnį ir rafinuotesnį požiūrį į vaizdų kūrimą. Slinkdami pastebėsite, kaip DALL-E kuria kiekvieną vaizdą su tikslumo ir vaizduotės deriniu, kuris rezonuoja su nurodytu raginimu.

Skirtingai nuo savo pirmtako, ši atnaujinta versija puikiai išdėlioja objektus scenoje ir tiksliai atvaizduoja žmogaus bruožus iki reikiamo rankos pirštų skaičiaus. Patobulinimai apima smulkesnes detales ir dabar pasiekiami didesne raiška, užtikrinant tikroviškesnį ir profesionalesnį vaizdą.

Teksto atvaizdavimo galimybės taip pat gerokai pagerėjo. Kai ankstesnėse DALL-E versijose buvo sukurtas beprasmiškas tekstas, dabar DALL-E 3 gali generuoti įskaitomas ir profesionalaus stiliaus raides (kartais) ir kartais net švarius logotipus.

Modelis žymiai patobulino sudėtingų ir niuansuotų vaizdo užklausų supratimą. DALL-E 3 dabar gali tiksliai sekti išsamius aprašymus, net ir scenarijuose su keliais elementais ir konkrečiomis instrukcijomis, parodydamas savo gebėjimą sukurti nuoseklius ir gerai sukomponuotus vaizdus. Išnagrinėkime kai kuriuos raginimus ir atitinkamą išvestį, kurią gavome:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 vaizdai pagal tekstinius raginimus

DALL-E 3 vaizdai, pagrįsti teksto raginimais (atminkite, kad kairiojo plakato rašyba neteisinga)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 vaizdai pagal tekstinius raginimus

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 vaizdai, pagrįsti teksto raginimais (atminkite, kad abiejų plakatų rašyba neteisinga)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 vaizdai pagal tekstinius raginimus

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 vaizdai pagal tekstinius raginimus

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 vaizdai pagal tekstinius raginimus

DALL-E 3 apribojimai ir rizika

„OpenAI“ ėmėsi svarbių veiksmų, kad išfiltruotų aiškų turinį iš DALL-E 3 mokymo duomenų, siekdama sumažinti šališkumą ir pagerinti modelio išvestį. Tai apima specialių filtrų taikymą delikataus turinio kategorijoms ir platesnių filtrų slenksčių peržiūrą. Sušvelninimo grupė taip pat apima kelis apsaugos priemonių sluoksnius, pvz., atmetimo mechanizmus ChatGPT jautrioms temoms, greitus įvesties klasifikatorius, kad būtų išvengta politikos pažeidimų, konkrečių turinio kategorijų blokavimo sąrašus ir transformacijas, užtikrinančias, kad raginimai atitiktų gaires.

Nepaisant pažangos, DALL-E 3 turi apribojimų suprasti erdvinius ryšius, tiksliai atvaizduoti ilgą tekstą ir generuoti specifinius vaizdus. OpenAI pripažįsta šiuos iššūkius ir tobulina būsimas versijas.

Bendrovė taip pat ieško būdų, kaip atskirti dirbtinio intelekto sukurtus vaizdus nuo žmonių sukurtų vaizdų, atspindinčių jų įsipareigojimą užtikrinti skaidrumą ir atsakingą AI naudojimą.

DALL E 3

DALL-E 3, naujausia versija, bus prieinama etapais, pradedant konkrečiomis klientų grupėmis ir vėliau išplėsti iki tyrimų laboratorijų ir API paslaugų. Tačiau nemokamo viešo išleidimo data dar nepatvirtinta.

„OpenAI“ iš tikrųjų nustato naują DI standartą su DALL-E 3, sklandžiai sujungiant sudėtingas technines galimybes ir patogias sąsajas. DALL-E 3 integravimas į plačiai naudojamas platformas, tokias kaip Bing, atspindi perėjimą nuo specializuotų programų prie platesnių, labiau prieinamų pramogų ir paslaugų.

Tikrasis žaidimo pasikeitimas ateinančiais metais greičiausiai bus pusiausvyra tarp naujovių ir vartotojų įgalinimo. Įmonės, kurios klestės, bus tos, kurios ne tik peržengs AI galimų pasiekimų ribas, bet ir suteiks vartotojams norimą autonomiją ir valdymą. „OpenAI“, atsidavusi etiškam AI, šiuo keliu eina atsargiai. Tikslas aiškus: sukurti dirbtinio intelekto įrankius, kurie būtų ne tik galingi, bet ir patikimi bei įtraukūs, užtikrinant, kad AI privalumai būtų prieinami visiems.

Kitas

Analoginis raginimas grįžti atgal: pasinerkite į naujausius „Google DeepMind“ pasiekimus

Nepraleiskite

Greitas įsilaužimas ir piktnaudžiavimas LLM

Aayush Mittal

Pastaruosius penkerius metus praleidau pasinerdamas į žavų mašininio mokymosi ir giluminio mokymosi pasaulį. Mano aistra ir patirtis paskatino mane prisidėti prie daugiau nei 50 įvairių programinės įrangos inžinerijos projektų, ypatingą dėmesį skiriant AI/ML. Mano nuolatinis smalsumas taip pat patraukė mane į natūralios kalbos apdorojimą – sritį, kurią noriu tyrinėti toliau.

Susivienyti.AI

Atidžiau pažvelkite į OpenAI DALL-E 3

Greita inžinerija

Atidžiau pažvelkite į OpenAI DALL-E 3

Turinys

Difuzijos modelių atsiradimas

Generatyvusis modeliavimas ir savęs dėmesio sluoksniai: DALL-E 3

Vaizdų generavimo iššūkiai ir sprendimai

Antraštės tobulinimas: naujas požiūris

Mokymai apie sintetinius duomenis

DALL-E 3 vertinimas

DALL-E 3 raginimai ir gebėjimai

DALL-E 3 apribojimai ir rizika

Naujausios žinutės

Susivienyti.AI

Atidžiau pažvelkite į OpenAI DALL-E 3

Turinys

Difuzijos modelių atsiradimas

Generatyvusis modeliavimas ir savęs dėmesio sluoksniai: DALL-E 3

Vaizdų generavimo iššūkiai ir sprendimai

Antraštės tobulinimas: naujas požiūris

Mokymai apie sintetinius duomenis

DALL-E 3 vertinimas

DALL-E 3 raginimai ir gebėjimai

DALL-E 3 apribojimai ir rizika

Jums gali patikti

Naujausios žinutės