stubbur Skoðaðu DALL-E 3 frá OpenAI nánar - Unite.AI
Tengja við okkur

Hraðvirkt verkfræði

Nánari skoðun á DALL-E 3 frá OpenAI

mm

Útgefið

 on

DALL E 3

Í Kynslóð AI heiminum, að fylgjast með því nýjasta er nafn leiksins. Og þegar kemur að því að búa til myndir, Stable Diffusion og Miðferð voru vettvangurinn sem allir voru að tala um – þangað til núna.

OpenAI, stutt af tæknirisanum Microsoft, kynnti DALL E 3 þann 20. september 2023.

DALL-E 3 snýst ekki bara um að búa til myndir; þetta snýst um að koma hugmyndum þínum í framkvæmd, alveg eins og þú ímyndaðir þér þær. Og það besta? Það er hratt, svona mjög hratt. Þú hefur hugmynd, þú færð hana í DALL-E 3, og búmm, myndin þín er tilbúin.

Svo, í þessari grein, ætlum við að kafa djúpt í hvað DALL-E 3 snýst um. Við munum tala um hvernig það virkar, hvað aðgreinir það frá hinum og hvers vegna það gæti bara verið tólið sem þú vissir ekki að þú þyrftir. Hvort sem þú ert hönnuður, listamaður eða bara einhver með fullt af flottum hugmyndum, þá muntu vilja halda þig við þetta. Byrjum.

Það sem er nýtt við DALL·E 3 er að það fær samhengi miklu betra en DALL·E 2. Fyrri útgáfur gætu hafa misst af einhverjum sérkennum eða hunsað nokkur smáatriði hér og þar, en DALL·E 3 er rétt. Það tekur upp nákvæmar upplýsingar um það sem þú ert að biðja um, gefur þér mynd sem er nær því sem þú ímyndaðir þér.

Flotti hlutinn? DALL·E 3 og SpjallGPT eru nú sameinuð. Þeir vinna saman til að hjálpa til við að betrumbæta hugmyndir þínar. Þú skýtur hugmynd, ChatGPT hjálpar til við að fínstilla vísunina og DALL·E 3 lífgar upp á það. Ef þú ert ekki aðdáandi myndarinnar geturðu beðið ChatGPT að fínstilla fyrirmælin og fá DALL·E 3 til að reyna aftur. Fyrir 20$ mánaðargjald færðu aðgang að GPT-4, DALL·E 3 og mörgum öðrum flottum eiginleikum.

Microsoft Bing spjall kom í hendurnar á DALL·E 3 jafnvel áður en OpenAI ChatGPT gerði það, og nú eru það ekki bara stóru fyrirtækin heldur allir sem fá að leika sér með það ókeypis. Samþættingin í Bing Chat og Bing Image Creator gerir það miklu auðveldara í notkun fyrir hvern sem er.

The Rise of Diffusion Models

Undanfarin 3 ár hefur vision AI orðið vitni að uppgangi dreifingarlíkana, sem hefur tekið verulegt stökk fram á við, sérstaklega í myndagerð. Fyrir dreifingarlíkön, Generative Adversarial Networks (GAN) voru leiðin til tækni til að búa til raunhæfar myndir.

GAN

GAN

Hins vegar áttu þeir sinn skerf af áskorunum, þar á meðal þörfinni fyrir gríðarlegt magn af gögnum og reiknikrafti, sem gerði þá oft erfiða í að höndla.

Sláðu inn dreifingu módel. Þeir komu fram sem stöðugri og skilvirkari valkostur við GAN. Ólíkt GAN, starfa dreifingarlíkön með því að bæta hávaða við gögn, hylja þau þar til aðeins tilviljun er eftir. Þeir vinna síðan aftur á bak til að snúa þessu ferli við og endurbyggja þýðingarmikil gögn úr hávaðanum. Þetta ferli hefur reynst árangursríkt og minna auðlindafrekt, sem gerir dreifingarlíkön að heitu umræðuefni í gervigreindarsamfélaginu.

Raunveruleg tímamót urðu í kringum 2020, með röð nýstárlegra greina og kynningu á CLIP OpenAI tækni, sem jók verulega getu dreifingarlíkana. Þetta gerði dreifingarlíkön einstaklega góð í texta-í-mynd myndun, sem gerði þeim kleift að búa til raunhæfar myndir úr textalýsingum. Þessi bylting var ekki bara í myndsköpun, heldur einnig á sviðum eins og tónverk og lífeðlisfræðilegar rannsóknir.

Í dag eru dreifingarlíkön ekki bara viðfangsefni fræðilegs áhuga heldur eru þau notuð í hagnýtum, raunverulegum atburðarásum.

Skapandi líkanagerð og sjálfsathygli: DALL-E 3

Ein af mikilvægustu framförunum á þessu sviði hefur verið þróun kynslóðar líkanagerðar, þar sem sýnatökutengdar nálganir eins og sjálfhverfa kynslóðalíkön og dreifingarferli eru leiðandi. Þeir hafa umbreytt líkönum texta í mynd, sem hefur leitt til róttækra frammistöðubóta. Með því að skipta myndmyndun í stakur skref hafa þessi líkön orðið meðfærilegri og auðveldara fyrir taugakerfi að læra.

Samhliða hefur notkun sjálfsathyglislaga gegnt lykilhlutverki. Þessi lög, staflað saman, hafa hjálpað til við að búa til myndir án þess að þurfa óbeina staðbundna hlutdrægni, algengt vandamál með snúningum. Þessi breyting hefur gert líkönum texta í mynd kleift að stækka og bæta áreiðanlega, vegna vel þekktra stærðareiginleika spennubreyta.

Áskoranir og lausnir í myndsköpun

Þrátt fyrir þessar framfarir er stjórnunarhæfni við myndagerð enn áskorun. Vandamál eins og hvetjandi eftirfylgni, þar sem líkanið gæti ekki haldið nákvæmlega við innsláttartextann, hafa verið ríkjandi. Til að bregðast við þessu hafa verið lagðar til nýjar aðferðir eins og endurbætur á textatexta, sem miða að því að auka gæði texta- og myndapörunar í þjálfunargagnasöfnum.

Myndatexti Umbætur: Ný nálgun

Umbætur á textatexta fela í sér að búa til betri myndatexta fyrir myndir, sem aftur hjálpar til við að þjálfa nákvæmari texta-í-mynd líkan. Þetta er náð með öflugum myndatexta sem framleiðir nákvæmar og nákvæmar lýsingar á myndum. Með því að þjálfa þessa endurbættu myndatexta hefur DALL-E 3 tekist að ná ótrúlegum árangri sem líkist mjög ljósmyndum og listaverkum framleidd af mönnum.

Þjálfun á tilbúnum gögnum

Hugmyndin um þjálfun á tilbúnum gögnum er ekki ný. Hins vegar er hið einstaka framlag hér í sköpun nýs, lýsandi myndatextakerfis. Áhrifin af því að nota tilbúna myndatexta til að þjálfa kynslóðarlíkön hafa verið veruleg, sem hefur leitt til endurbóta á getu líkansins til að fylgja leiðbeiningum nákvæmlega.

Að meta DALL-E 3

Með margþættu mati og samanburði við fyrri gerðir eins og DALL-E 2 og Stable Diffusion XL, hefur DALL-E 3 sýnt framúrskarandi frammistöðu, sérstaklega í verkefnum sem tengjast skjótri eftirfylgni.

Samanburður á texta-í-mynd líkönum á ýmsum úttektum

Samanburður á texta-í-mynd líkönum á ýmsum úttektum

Notkun sjálfvirkra mata og viðmiða hefur gefið skýrar vísbendingar um getu þess og styrkt stöðu þess sem fullkominn texta-í-mynd rafall.

DALL-E 3 leiðbeiningar og hæfileikar

DALL-E 3 býður upp á rökréttari og fágaðri nálgun við að búa til myndefni. Þegar þú flettir í gegnum, muntu taka eftir því hvernig DALL-E hannar hverja mynd, með blöndu af nákvæmni og hugmyndaauðgi sem hljómar með tiltekinni tilhögun.

Ólíkt forvera sínum, er þessi uppfærða útgáfa framúrskarandi í því að raða hlutum á náttúrulegan hátt innan senu og sýna mannlega eiginleika nákvæmlega, allt niður í réttan fjölda fingra á hendi. Endurbæturnar ná til fínni smáatriði og eru nú fáanlegar í hærri upplausn, sem tryggir raunsærri og faglegri framleiðslu.

Textaflutningsgetan hefur einnig batnað verulega. Þar sem fyrri útgáfur DALL-E framleiddu kjaftæðistexta, getur DALL-E 3 nú búið til læsilegan og fagmannlegan letri (stundum) og jafnvel hreint lógó við tækifæri.

Skilningur líkansins á flóknum og blæbrigðaríkum myndbeiðnum hefur verið aukinn verulega. DALL-E 3 getur nú fylgst nákvæmlega með nákvæmum lýsingum, jafnvel í atburðarásum með mörgum þáttum og sérstökum leiðbeiningum, sem sýnir fram á getu sína til að framleiða samfelldar og vel samsettar myndir. Við skulum kanna nokkrar leiðbeiningar og viðkomandi framleiðsla sem við fengum:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 myndir byggðar á textaboðum

DALL-E 3 myndir byggðar á textaboðum (Athugið að vinstra veggspjaldið er rangt stafsett)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 myndir byggðar á textaboðum

DALL-E 3 myndir byggðar á textaboðum

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 myndir byggðar á textaboðum

DALL-E 3 myndir byggðar á textaboðum (Athugið að bæði veggspjöld eru með rangri stafsetningu)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 myndir byggðar á textaboðum

DALL-E 3 myndir byggðar á textaboðum

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 myndir byggðar á textaboðum

DALL-E 3 myndir byggðar á textaboðum

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 myndir byggðar á textaboðum

DALL-E 3 myndir byggðar á textaboðum

Takmarkanir og áhætta af DALL-E 3

OpenAI hefur gert mikilvægar ráðstafanir til að sía skýrt efni úr þjálfunargögnum DALL-E 3, með það að markmiði að draga úr hlutdrægni og bæta framleiðslu líkansins. Þetta felur í sér beitingu sérstakra sía fyrir viðkvæma efnisflokka og endurskoðun á viðmiðunarmörkum fyrir víðtækari síur. Mótvægisstaflan inniheldur einnig nokkur lög af verndarráðstöfunum, svo sem synjunaraðferðum í ChatGPT fyrir viðkvæm efni, hraða inntaksflokkara til að koma í veg fyrir brot á stefnu, útilokunarlistar fyrir tiltekna efnisflokka og umbreytingar til að tryggja að tilkynningar séu í samræmi við leiðbeiningar.

Þrátt fyrir framfarir sínar hefur DALL-E 3 takmarkanir við að skilja staðbundin tengsl, skila langan texta nákvæmlega og búa til tiltekið myndefni. OpenAI viðurkennir þessar áskoranir og vinnur að endurbótum fyrir framtíðarútgáfur.

Fyrirtækið vinnur einnig að leiðum til að greina gervigreindarmyndir frá þeim sem gerðar eru af mönnum, sem endurspeglar skuldbindingu þeirra um gagnsæi og ábyrga gervigreindarnotkun.

DALL E

DALL E 3

DALL-E 3, nýjasta útgáfan, verður fáanleg í áföngum sem byrja á tilteknum hópum viðskiptavina og stækka síðar til rannsóknarstofnana og API þjónustu. Hins vegar er ókeypis opinber útgáfudagur ekki staðfestur ennþá.

OpenAI er sannarlega að setja nýjan staðal á sviði gervigreindar með DALL-E 3, sem brúar óaðfinnanlega flókna tæknilega getu og notendavænt viðmót. Samþætting DALL-E 3 í mikið notaða vettvang eins og Bing endurspeglar breytingu frá sérhæfðum forritum yfir í víðtækari, aðgengilegri afþreyingu og gagnsemi.

Hinn raunverulegi breyting á leik á næstu árum mun líklega vera jafnvægið milli nýsköpunar og valdeflingar notenda. Fyrirtæki sem dafna munu vera þau sem ekki aðeins þrýsta á mörk þess sem gervigreind getur náð, heldur veita notendum það sjálfræði og stjórn sem þeir óska ​​eftir. OpenAI, með skuldbindingu sína við siðferðilega gervigreind, fer vandlega þessa leið. Markmiðið er skýrt: að búa til gervigreindarverkfæri sem eru ekki bara öflug, heldur einnig áreiðanleg og innihaldsrík, og tryggja að ávinningur gervigreindar sé aðgengilegur öllum.

Ég hef eytt síðustu fimm árum í að sökkva mér niður í heillandi heim vélanáms og djúpnáms. Ástríða mín og sérfræðiþekking hefur leitt mig til að leggja mitt af mörkum til yfir 50 fjölbreyttra hugbúnaðarverkefna, með sérstakri áherslu á gervigreind/ML. Áframhaldandi forvitni mín hefur einnig dregið mig að náttúrulegri málvinnslu, svið sem ég er fús til að kanna frekar.