Ātra inženierija

Sīkāk apskatiet OpenAI DALL-E 3

Izdots

pirms 7 mēnešiem

Oktobris 31, 2023

Iekš Ģeneratīvais AI pasaulē, sekot jaunākajam ir spēles nosaukums. Un, kad runa ir par attēlu ģenerēšanu, Stable Diffusion un Pusceļš bija platforma, par kuru visi runāja – līdz šim.

Ieviests OpenAI, ko atbalsta tehnoloģiju gigants Microsoft DALL E 3 gada 20. gada 2023. septembrī.

DALL-E 3 nav tikai attēlu radīšana; tas ir par jūsu ideju iedzīvināšanu, tieši tā, kā jūs tās iedomājāties. Un labākā daļa? Tas ir ātri, piemēram, ļoti ātri. Jums ir ideja, ievadiet to DALL-E 3, un jūsu attēls ir gatavs.

Tāpēc šajā rakstā mēs iedziļināsimies DALL-E 3 būtībā. Mēs runāsim par to, kā tas darbojas, ar ko tas atšķiras no pārējiem un kāpēc tas varētu būt tikai rīks, par kuru jūs nezināt, ka jums tas ir nepieciešams. Neatkarīgi no tā, vai esat dizaineris, mākslinieks vai vienkārši kāds, kam ir daudz foršu ideju, jūs noteikti vēlēsities to darīt. Sāksim.

Kas jauns ar DALL·E 3, ir tas, ka tas iegūst daudz labāku kontekstu nekā DALL·E 2. Iepriekšējās versijās, iespējams, nav ievērotas dažas specifikas vai arī šeit un tur tika ignorētas dažas detaļas, taču DALL·E 3 ir aktuāla. Tas uztver precīzu informāciju par to, ko jūs lūdzat, sniedzot jums attēlu, kas ir tuvāks tam, ko jūs iedomājāties.

Foršā daļa? DALL·E 3 un ChatGPT tagad ir integrēti kopā. Viņi strādā kopā, lai palīdzētu uzlabot jūsu idejas. Jūs uzņemat koncepciju, ChatGPT palīdz precizēt uzvedni, un DALL·E 3 to atdzīvina. Ja neesat attēla cienītājs, varat lūgt ChatGPT pielāgot uzvedni un likt DALL·E 3 mēģināt vēlreiz. Par ikmēneša maksu 20 $ jūs saņemat piekļuvi GPT-4, DALL·E 3 un daudzām citām lieliskām funkcijām.

Microsoft Bing tērzēšana DALL·E 3 ieguva savu roku pat pirms OpenAI ChatGPT, un tagad tas ir ne tikai lielie uzņēmumi, bet arī visi, kas var spēlēt ar to bez maksas. Integrācija Bing Chat un Bing Image Creator padara to daudz vieglāk lietojamu ikvienam.

Difūzijas modeļu pieaugums

Pēdējo 3 gadu laikā vīzijas AI ir pieredzējis difūzijas modeļu pieaugumu, veicot ievērojamu lēcienu uz priekšu, īpaši attēlu ģenerēšanā. Pirms difūzijas modeļiem Ģeneratīvie pretrunīgie tīkli (GAN) bija galvenā tehnoloģija reālistisku attēlu ģenerēšanai.

GAN

Tomēr viņiem bija sava daļa izaicinājumu, tostarp vajadzība pēc milzīga datu apjoma un skaitļošanas jaudas, kas bieži vien padarīja tos sarežģīti risināt.

ienākt difūzija modeļiem. Tie parādījās kā stabilāka un efektīvāka alternatīva GAN. Atšķirībā no GAN, difūzijas modeļi darbojas, pievienojot datiem troksni, aizsedzot tos, līdz paliek tikai nejaušība. Pēc tam viņi strādā atpakaļ, lai mainītu šo procesu, rekonstruējot nozīmīgus datus no trokšņa. Šis process ir izrādījies efektīvs un mazāk resursietilpīgs, padarot difūzijas modeļus par aktuālu tēmu AI kopienā.

Īstais pagrieziena punkts notika ap 2020. gadu, kad tika sagatavota virkne novatorisku rakstu un ieviesta OpenAI KLIP tehnoloģija, kas ievērojami uzlaboja difūzijas modeļu iespējas. Tas padarīja difūzijas modeļus īpaši labi teksta-attēlu sintēzē, ļaujot tiem ģenerēt reālistiskus attēlus no teksta aprakstiem. Šie sasniegumi bija ne tikai attēlu radīšanā, bet arī tādās jomās kā mūzikas kompozīcija un biomedicīnas pētījumi.

Mūsdienās difūzijas modeļi nav tikai akadēmiskas intereses temats, bet tiek izmantoti praktiskos, reālās pasaules scenārijos.

Ģeneratīvā modelēšana un pašapziņas slāņi: DALL-E 3

avots

Viens no svarīgākajiem sasniegumiem šajā jomā ir ģeneratīvās modelēšanas evolūcija, kurā vadošās lomas ir uz izlasi balstītām pieejām, piemēram, autoregresīvā ģeneratīvā modelēšana un difūzijas procesi. Viņi ir pārveidojuši teksta-attēlu modeļus, tādējādi radot krasus veiktspējas uzlabojumus. Sadalot attēlu ģenerēšanu atsevišķos posmos, šie modeļi ir kļuvuši izsekojamāki un vieglāk apgūstami neironu tīkliem.

Paralēli tam ir bijusi izšķiroša loma pašapziņas slāņu izmantošanai. Šie slāņi, kas ir sakrauti kopā, ir palīdzējuši ģenerēt attēlus bez nepieciešamības pēc netiešām telpiskām novirzēm, kas ir izplatīta problēma ar konvolucijām. Šī pāreja ir ļāvusi teksta pārveides modeļiem droši mērogot un uzlaboties, pateicoties labi saprotamajām transformatoru mērogošanas īpašībām.

Izaicinājumi un risinājumi attēlu ģenerēšanā

Neskatoties uz šiem sasniegumiem, vadāmība attēlu ģenerēšanā joprojām ir izaicinājums. Pārsvarā ir bijušas tādas problēmas kā tūlītēja sekošana, kad modelis var neatbilst ievades tekstam. Lai to risinātu, ir ierosinātas jaunas pieejas, piemēram, parakstu uzlabošana, lai uzlabotu teksta un attēlu savienojuma kvalitāti apmācības datu kopās.

Parakstu uzlabošana: jauna pieeja

Parakstu uzlabošana ietver labākas kvalitātes parakstu ģenerēšanu attēliem, kas savukārt palīdz apmācīt precīzākus teksta-attēlu modeļus. Tas tiek panākts, izmantojot spēcīgu attēlu parakstītāju, kas veido detalizētus un precīzus attēlu aprakstus. Apmācot šos uzlabotos parakstus, DALL-E 3 ir spējuši sasniegt ievērojamus rezultātus, kas ļoti atgādina cilvēku radītas fotogrāfijas un mākslas darbus.

Apmācība par sintētiskajiem datiem

Sintētisko datu apmācības koncepcija nav jauna. Tomēr unikāls ieguldījums šeit ir jaunas, aprakstošas attēlu parakstu sistēmas izveide. Sintētisko parakstu izmantošana ģeneratīvo modeļu apmācībā ir būtiski ietekmējusi, kā rezultātā ir uzlabojusies modeļa spēja precīzi sekot uzvednēm.

DALL-E 3 novērtēšana

Veicot vairākus novērtējumus un salīdzinājumus ar iepriekšējiem modeļiem, piemēram, DALL-E 2 un Stable Diffusion XL, DALL-E 3 ir demonstrējis izcilu veiktspēju, jo īpaši uzdevumos, kas saistīti ar tūlītēju sekošanu.

Teksta–attēla modeļu salīdzinājums dažādos novērtējumos

Automatizētu novērtējumu un etalonu izmantošana ir sniegusi skaidrus pierādījumus par tā iespējām, nostiprinot tās kā mūsdienīga teksta-attēlu ģeneratora pozīciju.

DALL-E 3 Pamudinājumi un spējas

DALL-E 3 piedāvā loģiskāku un izsmalcinātāku pieeju vizuālo attēlu veidošanai. Ritinot, pamanīsit, kā DALL-E veido katru attēlu, izmantojot precizitātes un iztēles sajaukumu, kas sasaucas ar doto uzvedni.

Atšķirībā no tā priekšgājēja šī jauninātā versija lieliski izceļas ar objektu dabisko izkārtojumu ainā un precīzi attēlo cilvēka iezīmes līdz pareizajam pirkstu skaitam uz rokas. Uzlabojumi attiecas uz smalkākām detaļām un tagad ir pieejami ar augstāku izšķirtspēju, nodrošinot reālistiskāku un profesionālāku rezultātu.

Arī teksta atveidošanas iespējas ir ievērojami uzlabojušās. Tur, kur DALL-E iepriekšējās versijas veidoja muļķīgu tekstu, DALL-E 3 tagad var radīt salasāmus un profesionāli veidotus burtus (dažreiz) un pat tīrus logotipus.

Modeļa izpratne par sarežģītiem un niansētiem attēlu pieprasījumiem ir ievērojami uzlabota. DALL-E 3 tagad var precīzi sekot detalizētiem aprakstiem pat scenārijos ar vairākiem elementiem un specifiskām instrukcijām, parādot tā spēju radīt saskaņotus un labi komponētus attēlus. Izpētīsim dažus norādījumus un attiecīgo izvadi, ko mēs saņēmām:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 attēli, kuru pamatā ir teksta uzvednes (Ņemiet vērā, ka kreisā plakāta pareizrakstība ir nepareiza)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 attēli, kuru pamatā ir teksta uzvednes

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 attēli, kuru pamatā ir teksta uzvednes (Ņemiet vērā, ka abiem plakātiem ir nepareiza pareizrakstība)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 attēli, kuru pamatā ir teksta uzvednes

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 attēli, kuru pamatā ir teksta uzvednes

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 attēli, kuru pamatā ir teksta uzvednes

DALL-E ierobežojumi un risks 3

OpenAI ir veikusi nozīmīgus pasākumus, lai filtrētu nepārprotamu saturu no DALL-E 3 apmācības datiem, lai samazinātu novirzes un uzlabotu modeļa izvadi. Tas ietver īpašu filtru piemērošanu sensitīvā satura kategorijām un sliekšņu pārskatīšanu plašākiem filtriem. Seku mazināšanas grupā ir iekļauti arī vairāki aizsardzības slāņi, piemēram, atteikuma mehānismi ChatGPT sensitīvām tēmām, tūlītējas ievades klasifikatori, lai novērstu politikas pārkāpumus, bloķēšanas saraksti noteiktām satura kategorijām un pārveidojumi, lai nodrošinātu uzvedņu atbilstību vadlīnijām.

Neskatoties uz uzlabojumiem, DALL-E 3 ir ierobežojumi telpisko attiecību izpratnē, gara teksta precīzā atveidē un specifisku attēlu ģenerēšanā. OpenAI atzīst šīs problēmas un strādā pie uzlabojumiem nākamajām versijām.

Uzņēmums arī strādā pie veidiem, kā atšķirt mākslīgā intelekta radītos attēlus no cilvēku radītajiem attēliem, atspoguļojot viņu apņemšanos nodrošināt caurspīdīgumu un atbildīgu AI izmantošanu.

DALL E 3

DALL-E 3, jaunākā versija, būs pieejama pakāpeniski, sākot ar konkrētām klientu grupām un vēlāk izvēršot pētniecības laboratorijas un API pakalpojumus. Tomēr bezmaksas publiskās izlaišanas datums vēl nav apstiprināts.

OpenAI patiesi nosaka jaunu standartu AI jomā ar DALL-E 3, nemanāmi savienojot sarežģītas tehniskās iespējas un lietotājam draudzīgas saskarnes. DALL-E 3 integrācija plaši izmantotās platformās, piemēram, Bing, atspoguļo pāreju no specializētām lietojumprogrammām uz plašākiem, pieejamākiem izklaides un lietderības veidiem.

Visticamāk, ka tuvākajos gados būs jāmaina līdzsvars starp inovācijām un lietotāju pilnvarām. Uzņēmumi, kas plauks, būs tie, kas ne tikai pārkāpj AI sasniedzamās robežas, bet arī nodrošina lietotājiem vēlamo autonomiju un kontroli. OpenAI ar savu apņemšanos ievērot ētisku AI rūpīgi virzās pa šo ceļu. Mērķis ir skaidrs: radīt AI rīkus, kas ir ne tikai spēcīgi, bet arī uzticami un iekļaujoši, nodrošinot, ka AI priekšrocības ir pieejamas visiem.

Nākošais

Analogisks un atkāpšanās pamudinājums: ieskats jaunākajos Google DeepMind sasniegumos

Nepalaidiet garām

Tūlītēja uzlaušana un LLM ļaunprātīga izmantošana

Ājušs Mitāls

Pēdējos piecus gadus esmu pavadījis, iegremdējot sevi aizraujošajā mašīnmācīšanās un dziļās mācīšanās pasaulē. Mana aizraušanās un pieredze lika man piedalīties vairāk nekā 50 dažādos programmatūras inženierijas projektos, īpašu uzmanību pievēršot AI/ML. Mana pastāvīgā ziņkārība mani ir piesaistījusi arī dabiskās valodas apstrādei, jomai, kuru vēlos izpētīt tālāk.

Apvienojieties.AI

Sīkāk apskatiet OpenAI DALL-E 3

Ātra inženierija

Sīkāk apskatiet OpenAI DALL-E 3

Satura rādītājs

Difūzijas modeļu pieaugums

Ģeneratīvā modelēšana un pašapziņas slāņi: DALL-E 3

Izaicinājumi un risinājumi attēlu ģenerēšanā

Parakstu uzlabošana: jauna pieeja

Apmācība par sintētiskajiem datiem

DALL-E 3 novērtēšana

DALL-E 3 Pamudinājumi un spējas

DALL-E ierobežojumi un risks 3

Jaunākās publikācijas

Apvienojieties.AI

Sīkāk apskatiet OpenAI DALL-E 3

Satura rādītājs

Difūzijas modeļu pieaugums

Ģeneratīvā modelēšana un pašapziņas slāņi: DALL-E 3

Izaicinājumi un risinājumi attēlu ģenerēšanā

Parakstu uzlabošana: jauna pieeja

Apmācība par sintētiskajiem datiem

DALL-E 3 novērtēšana

DALL-E 3 Pamudinājumi un spējas

DALL-E ierobežojumi un risks 3

Jums varētu patikt

Jaunākās publikācijas