stub OpenAI-ийн DALL-E 3-ийг ойроос харлаа - Unite.AI
бидэнтэй хамт холбоно

Шуурхай инженерчлэл

OpenAI-ийн DALL-E 3-ыг ойроос харлаа

mm

Нийтэлсэн

 on

DALL E 3

Дахь Үүсгэх хиймэл оюун ухаан Дэлхий ертөнц, сүүлийн үеийнхээс хоцрохгүй байх нь тоглоомын нэр юм. Мөн зураг үүсгэх тухайд Тогтвортой тархалт ба Замын дунд хүн бүрийн ярьж байсан платформ байсан - өнөөг хүртэл.

Технологийн аварга Майкрософт компанийн дэмжлэгтэй OpenAI-г танилцууллаа DALL E 3 20 оны 2023-р сарын XNUMX-ны өдөр.

DALL-E 3 нь зөвхөн зураг бүтээх тухай биш; Энэ нь таны төсөөлж байсан шиг санаагаа амьдралд хэрэгжүүлэх явдал юм. Тэгээд хамгийн сайхан хэсэг нь? Энэ нь хурдан юм шиг, үнэхээр хурдан юм. Танд нэг санаа байна, та үүнийг DALL-E 3 руу оруулаад, таны дүр төрх бэлэн боллоо.

Тиймээс, энэ нийтлэлд бид DALL-E 3-ийн тухай юу болохыг гүнзгий судлах болно. Энэ нь хэрхэн ажилладаг, бусдаас юугаараа онцлог, яагаад энэ нь танд хэрэгтэйг мэдэхгүй байсан хэрэгсэл байж болох талаар ярилцах болно. Та дизайнер ч бай, зураач ч бай, эсвэл зүгээр л олон сайхан санаатай хүн байна уу, та үүний төлөө тууштай явахыг хүсэх болно. Эхэлцгээе.

DALL·E 3-ын шинэлэг зүйл бол DALL·E 2-оос хамаагүй илүү контекстийг авдаг. Өмнөх хувилбарууд нь зарим нэг зүйлийг орхигдуулсан эсвэл энд тэнд цөөн хэдэн нарийн ширийн зүйлийг үл тоомсорлосон байж болох ч DALL·E 3 нь зөв юм. Энэ нь таны асууж буй зүйлийн нарийн ширийн зүйлийг олж авч, таны төсөөлж байсантай илүү ойр зургийг өгнө.

Сайхан хэсэг нь? DALL·E 3 ба GPT чат одоо хамтдаа нэгдсэн байна. Тэд таны санааг сайжруулахын тулд хамтран ажилладаг. Та концепцийг буулгаж, ChatGPT нь шуурхай тохиргоог хийхэд тусалж, DALL·E 3 үүнийг амьдралд авчирдаг. Хэрэв та зургийн шүтэн бишрэгч биш бол ChatGPT-ээс сануулгыг өөрчлөхийг хүсч, DALL·E 3-г дахин оролдохыг хүсч болно. Сарын 20$-ын төлбөрөөр та GPT-4, DALL·E 3 болон бусад олон гайхалтай функцуудыг ашиглах боломжтой болно.

Microsoft-ын Bing чат OpenAI-ийн ChatGPT-ээс ч өмнө DALL·E 3-ыг эзэмшсэн бөгөөд одоо зөвхөн томоохон аж ахуйн нэгжүүд төдийгүй хүн бүр үүнтэй үнэ төлбөргүй тоглох боломжтой болсон. Bing Chat болон Bing Image Creator-д нэгдсэн нь үүнийг хэн ч ашиглахад илүү хялбар болгодог.

Тархалтын загваруудын өсөлт

Сүүлийн 3 жилийн хугацаанд харааны хиймэл оюун ухаан нь тархалтын загваруудын өсөлтийг гэрчилж, ялангуяа зураг бүтээхэд ихээхэн үсрэлт хийсэн. Диффузын загвараас өмнө, Өрсөлдөөнт сүлжээ (GANs) Бодит дүр төрхийг бий болгох гол технологи байсан.

GAN -ууд

GAN -ууд

Гэсэн хэдий ч тэдэнд асар их хэмжээний өгөгдөл, тооцоолох хүч шаардагддаг тул тэдгээрийг шийдвэрлэхэд төвөгтэй байдаг.

оруулна уу тархалт загварууд. Тэд GAN-аас илүү тогтвортой, үр дүнтэй хувилбар болж гарч ирсэн. GAN-аас ялгаатай нь тархалтын загварууд нь өгөгдөлд чимээ шуугиан нэмж, зөвхөн санамсаргүй байдал үлдэх хүртэл далдлах замаар ажилладаг. Дараа нь тэд энэ үйл явцыг буцаахын тулд буцаж ажиллаж, чимээ шуугианаас утга учиртай өгөгдлийг сэргээдэг. Энэ үйл явц нь үр дүнтэй, нөөц бага зарцуулдаг болох нь батлагдсан тул тархалтын загвар нь хиймэл оюун ухааны нийгэмлэгийн халуун сэдэв болж байна.

Жинхэнэ эргэлтийн цэг нь 2020 онд тохиож, цуврал шинэлэг нийтлэлүүд болон OpenAI-ийн CLIP тархалтын загваруудын чадавхийг мэдэгдэхүйц сайжруулсан технологи. Энэ нь диффузийн загваруудыг текстээс зураг хооронд нэгтгэхдээ онцгой сайн болгож, текстийн тайлбараас бодит зураг үүсгэх боломжийг олгосон. Эдгээр нээлтүүд нь зөвхөн зураг бүтээхэд бус, мөн адил салбарт гарсан хөгжмийн найруулга болон биоанагаахын судалгаа.

Өнөөдөр тархалтын загварууд нь зөвхөн эрдэм шинжилгээний сонирхлын сэдэв төдийгүй бодит, бодит хувилбаруудад ашиглагдаж байна.

Генератив загварчлал ба өөртөө анхаарал хандуулах давхаргууд: DALL-E 3

Энэ салбарт гарсан чухал ахиц дэвшлийн нэг нь үүсгүүрийн загварчлалын хувьсал байсан бөгөөд түүвэрлэлтэд суурилсан авторегрессив үүсгэгч загварчлал, тархалтын процессууд тэргүүлж байна. Тэд текстээс зураг руу шилжих загварыг өөрчилсөн нь гүйцэтгэлийг эрс сайжруулахад хүргэсэн. Дүрс үүсгэх үе шатуудыг салангид үе шат болгон хуваах замаар эдгээр загварууд нь мэдрэлийн сүлжээнд суралцахад илүү хялбар, хялбар болсон.

Үүний зэрэгцээ өөртөө анхаарал хандуулах давхаргыг ашиглах нь чухал үүрэг гүйцэтгэсэн. Эдгээр давхаргууд нь нэг дор овоолсон нь эвдрэлийн нийтлэг асуудал болох далд орон зайн хэвийх шаардлагагүйгээр зураг бүтээхэд тусалсан. Энэхүү шилжилт нь трансформаторын сайн ойлгогдсон масштабын шинж чанаруудын улмаас текстээс зураг руу шилжих загварыг найдвартай өргөжүүлж, сайжруулах боломжийг олгосон.

Зураг үүсгэхэд тулгарч буй бэрхшээл ба шийдэл

Эдгээр дэвшлийг үл харгалзан зураг үүсгэхэд хяналт тавих нь бэрхшээлтэй хэвээр байна. Загвар нь оролтын тексттэй нягт нийцэхгүй байж болзошгүй тул шуурхай дагаж мөрдөх гэх мэт асуудлууд зонхилж байна. Үүнийг шийдвэрлэхийн тулд сургалтын өгөгдлийн багц дахь текст болон зургийн хослолын чанарыг сайжруулахад чиглэсэн тайлбарыг сайжруулах зэрэг шинэ арга барилыг санал болгосон.

Тайлбарыг сайжруулах: Шинэлэг хандлага

Тайлбарыг сайжруулах нь зураг дээр илүү чанартай тайлбар үүсгэх бөгөөд энэ нь эргээд текстээс зураг руу илүү нарийвчлалтай загвар гаргахад тусалдаг. Энэ нь зургийн нарийвчилсан, үнэн зөв тайлбарыг гаргадаг бат бөх зургийн тайлбараар дамжуулан хүрдэг. Эдгээр сайжруулсан тайлбар дээр сургалт хийснээр DALL-E 3 нь хүний ​​бүтээсэн гэрэл зураг, урлагийн бүтээлтэй маш төстэй гайхалтай үр дүнд хүрч чадсан юм.

Синтетик мэдээллийн талаархи сургалт

Синтетик өгөгдөлд сургах тухай ойлголт нь шинэ зүйл биш юм. Гэсэн хэдий ч энд онцгой хувь нэмэр оруулсан нь шинэлэг, дүрсэлсэн зургийн тайлбарын системийг бий болгох явдал юм. Үүсгэх загваруудыг сургахад нийлэг тайлбар ашиглах нь ихээхэн нөлөөлсөн бөгөөд энэ нь загварын заавар зөвлөмжийг үнэн зөв дагах чадварыг сайжруулахад хүргэсэн.

DALL-E 3-ийг үнэлэх

DALL-E 2 болон Stable Diffusion XL зэрэг өмнөх загваруудтай олон удаагийн үнэлгээ, харьцуулалт хийсний үр дүнд DALL-E 3 нь ялангуяа хурдан дагаж мөрдөхтэй холбоотой ажлуудад өндөр гүйцэтгэлийг харуулсан.

Төрөл бүрийн үнэлгээний талаархи текстээс зурагтай загваруудыг харьцуулах

Төрөл бүрийн үнэлгээний талаархи текстээс зурагтай загваруудыг харьцуулах

Автоматжуулсан үнэлгээ, жишиг үнэлгээг ашиглах нь түүний чадавхийг тодорхой нотолж, хамгийн сүүлийн үеийн текстээс зураг үүсгэгч болох байр сууриа бататгасан.

DALL-E 3 заавар, чадвар

DALL-E 3 нь дүрслэл бүтээхэд илүү логик, боловсронгуй хандлагыг санал болгодог. Та гүйлгэж байхдаа DALL-E зураг бүрийг өгөгдсөн сануулгатай нийцэх нарийвчлал, уран сэтгэмжийг хослуулан хэрхэн урлаж байгааг анзаарах болно.

Өмнөх хувилбараасаа ялгаатай нь энэхүү сайжруулсан хувилбар нь үзэгдлийн доторх объектуудыг байгалийн жамаар байрлуулж, хүний ​​онцлогийг гарт байгаа хурууны тоо хүртэл үнэн зөвөөр дүрслэн харуулах чадвартай. Сайжруулалт нь илүү нарийн ширийн зүйлийг хүртэл өргөжүүлж, одоо илүү өндөр нарийвчлалтайгаар ашиглах боломжтой болж, илүү бодитой, мэргэжлийн гаралтыг баталгаажуулдаг.

Текст дүрслэх чадвар ч мэдэгдэхүйц сайжирсан. DALL-E-ийн өмнөх хувилбарууд утгагүй бичвэр гаргадаг байсан бол DALL-E 3 одоо гаргацтай, мэргэжлийн загвартай үсэг (заримдаа), бүр заримдаа цэвэр лого үүсгэх боломжтой.

Загварын нарийн төвөгтэй, нарийн төвөгтэй зургийн хүсэлтийг ойлгох нь мэдэгдэхүйц сайжирсан. DALL-E 3 нь олон элемент, тусгай заавар бүхий хувилбарт ч гэсэн нарийвчилсан тайлбарыг яг таг дагаж, уялдаа холбоотой, сайн зохиосон зураг гаргах чадвараа харуулж байна. Зарим сануулгууд болон бидний олж авсан холбогдох гаралтыг судалж үзье:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

DALL-E 3 зураг текстийн сануулгууд дээр үндэслэсэн (Зүүн зурагт хуудас нь үсгийн алдаатай байгааг анхаарна уу)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

Текст сануулга дээр үндэслэсэн DALL-E 3 зураг (Зурагт хуудас хоёулаа алдаатай бичээстэй байгааг анхаарна уу)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

DALL-E 3 зураг текстийн сануулга дээр үндэслэсэн

DALL-E 3-ын хязгаарлалт ба эрсдэл

OpenAI нь DALL-E 3-ийн сургалтын өгөгдлөөс тодорхой агуулгыг шүүх чухал алхам хийсэн бөгөөд энэ нь хэвийсэн ойлголтыг бууруулж, загварын гаралтыг сайжруулах зорилготой юм. Үүнд эмзэг контентын ангилалд зориулсан тусгай шүүлтүүр хэрэглэх, илүү өргөн шүүлтүүрийн босго оноог өөрчлөх зэрэг багтана. Хөнгөвчлөх стек нь эмзэг сэдвүүдэд зориулсан ChatGPT-д татгалзах механизм, бодлогын зөрчлөөс урьдчилан сэргийлэх шуурхай оролтын ангилагч, тодорхой агуулгын ангилалд зориулсан блоклох жагсаалт, зааварчилгааг удирдамжтай нийцүүлэхийн тулд хувиргах зэрэг хэд хэдэн давхар хамгаалалтыг агуулдаг.

Дэлгэрэнгүй дэвшилттэй хэдий ч DALL-E 3 нь орон зайн харилцааг ойлгох, урт текстийг үнэн зөв гаргах, тодорхой дүрслэл үүсгэхэд хязгаарлалттай байдаг. OpenAI нь эдгээр сорилтуудыг хүлээн зөвшөөрч, ирээдүйн хувилбаруудыг сайжруулахаар ажиллаж байна.

Мөн тус компани хиймэл оюун ухаанаар бүтээгдсэн зургуудыг хүний ​​хийсэн зургуудаас ялгах арга замууд дээр ажиллаж байгаа нь тэдний ил тод байдал, хиймэл оюун ухааныг хариуцлагатай ашиглах амлалтыг тусгаж байна.

ДАЛ·Э

DALL E 3

Хамгийн сүүлийн үеийн хувилбар болох DALL-E 3 нь тодорхой хэрэглэгчдийн бүлгээс эхлээд дараа нь судалгааны лаборатори болон API үйлчилгээ болгон өргөжүүлэх үе шаттайгаар гарах болно. Гэсэн хэдий ч олон нийтэд үнэ төлбөргүй гарах огноо хараахан батлагдаагүй байна.

OpenAI нь DALL-E 3-тай хиймэл оюун ухааны салбарт үнэхээр шинэ стандарт тогтоож, нарийн төвөгтэй техникийн чадавхи болон хэрэглэгчдэд ээлтэй интерфэйсүүдийг хооронд нь холбож өгч байна. DALL-E 3-ийг Bing гэх мэт өргөн хэрэглэгддэг платформд нэгтгэсэн нь тусгай программуудаас илүү өргөн хүрээтэй, илүү хүртээмжтэй зугаа цэнгэл, хэрэглээний хэлбэрүүд рүү шилжиж байгааг харуулж байна.

Ирэх жилүүдэд жинхэнэ тоглоомыг өөрчилдөг зүйл бол инноваци болон хэрэглэгчийн эрх мэдлийн хоорондох тэнцвэр байх болно. Хөгжиж буй компаниуд нь хиймэл оюун ухаанд хүрч чадах зүйлийн хил хязгаарыг даваад зогсохгүй хэрэглэгчдэд өөрсдийн хүссэн бие даасан байдал, хяналтыг өгдөг компаниуд байх болно. Ёс суртахуунтай хиймэл оюун ухааныг эрхэмлэдэг OpenAI энэ замыг анхааралтай авч явж байна. Зорилго нь тодорхой: AI-ийн ашиг тусыг хүн бүрт хүртээмжтэй байлгахын тулд хүчирхэг төдийгүй найдвартай, хүртээмжтэй хиймэл оюун ухааны хэрэгслийг бий болгох.

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.