քոթուկ Ավելի մոտիկ հայացք OpenAI-ի DALL-E 3-ին - Unite.AI
Միացեք մեզ

Արագ ճարտարագիտություն

Ավելի մոտիկ հայացք OpenAI-ի DALL-E 3-ին

mm

Հրատարակված է

 on

DALL E 3

Է Գեներատիվ AI աշխարհը, վերջինին հետ պահելը խաղի անվանումն է: Իսկ երբ խոսքը վերաբերում է պատկերների ստեղծմանը, Stable Diffusion և Միջին ճանապարհորդություն այն հարթակն էին, որի մասին բոլորը խոսում էին մինչ այժմ:

Microsoft-ի տեխնոլոգիական հսկայի աջակցությամբ OpenAI-ն ներկայացրեց DALL E 3 սեպտեմբերին, 20th, 2023:

DALL-E 3-ը միայն պատկերներ ստեղծելու մասին չէ. դա ձեր գաղափարները կյանքի կոչելու մասին է, ճիշտ այնպես, ինչպես դուք եք պատկերացրել դրանք: Իսկ ամենալավ մասը. Դա արագ է, ինչպես, իսկապես արագ: Դուք ունեք մի գաղափար, դուք այն կերակրում եք DALL-E 3-ին, և բում, ձեր պատկերը պատրաստ է:

Այսպիսով, այս հոդվածում մենք պատրաստվում ենք խորը սուզվել, թե ինչի մասին է DALL-E 3-ը: Մենք կխոսենք այն մասին, թե ինչպես է այն աշխատում, ինչն է այն առանձնացնում մնացածից և ինչու այն կարող է լինել այն գործիքը, որը դուք չգիտեիք, որ ձեզ անհրաժեշտ է: Անկախ նրանից, թե դուք դիզայներ եք, նկարիչ կամ պարզապես շատ հետաքրքիր գաղափարներ ունեցող մեկը, դուք կցանկանաք հավատարիմ մնալ դրան: Եկեք սկսենք.

DALL·E 3-ի նորությունն այն է, որ այն շատ ավելի լավ է համատեքստում ստանում, քան DALL·E 2-ը: Ավելի վաղ տարբերակները կարող էին բաց թողնել որոշ առանձնահատկություններ կամ անտեսել մի քանի մանրամասներ այստեղ և այնտեղ, բայց DALL·E 3-ը ճիշտ տեղում է: Այն ընտրում է ճշգրիտ մանրամասները, թե ինչ եք խնդրում, տալով ձեզ պատկեր, որն ավելի մոտ է ձեր պատկերացրածին:

Թույն մասը. DALL·E 3 և Զրուցարան GPT այժմ ինտեգրված են միասին: Նրանք համագործակցում են՝ օգնելու կատարելագործել ձեր գաղափարները: Դուք նկարահանում եք կոնցեպտ, ChatGPT-ն օգնում է կարգավորել հուշումը, իսկ DALL·E 3-ը կյանքի է կոչում այն: Եթե ​​դուք պատկերի երկրպագու չեք, կարող եք ChatGPT-ին խնդրել, որ կսմթվի հուշումը և ստանա DALL·E 3 նորից փորձելու համար: Ամսական 20$ վճարով դուք ստանում եք մուտք դեպի GPT-4, DALL·E 3 և շատ այլ հետաքրքիր գործառույթներ:

Microsoft- ը Bing Զրուցարան ձեռք է բերել DALL·E 3-ը նույնիսկ մինչև OpenAI-ի ChatGPT-ն, և այժմ ոչ միայն խոշոր ձեռնարկությունները, այլ բոլորն են, ովքեր կարող են անվճար խաղալ դրա հետ: Bing Chat-ին և Bing Image Creator-ին ինտեգրումը շատ ավելի հեշտ է դարձնում այն ​​օգտագործել ցանկացածի համար:

Դիֆուզիոն մոդելների վերելքը

Վերջին 3 տարում Vision AI-ն ականատես է եղել դիֆուզիոն մոդելների վերելքին՝ զգալի թռիչք կատարելով հատկապես պատկերների ստեղծման գործում: Նախքան դիֆուզիոն մոդելները, Ստեղծող հակառակորդային ցանցեր (GANS) իրատեսական պատկերներ ստեղծելու համար օգտագործվող տեխնոլոգիան էր:

GAN-ներ

GAN-ներ

Այնուամենայնիվ, նրանք ունեին մարտահրավերների իրենց բաժինը, ներառյալ հսկայական քանակությամբ տվյալների և հաշվողական հզորության անհրաժեշտությունը, ինչը հաճախ դժվարացնում էր նրանց կառավարումը:

Մտնել հեռարձակում մոդելներ. Նրանք հայտնվեցին որպես GAN-ների ավելի կայուն և արդյունավետ այլընտրանք: Ի տարբերություն GAN-ների, դիֆուզիոն մոդելները գործում են տվյալներին աղմուկ ավելացնելով, թաքցնելով դրանք այնքան ժամանակ, մինչև մնա միայն պատահականությունը: Նրանք այնուհետև աշխատում են հետընթաց՝ այս գործընթացը շրջելու համար՝ վերակառուցելով իմաստալից տվյալներ աղմուկից: Այս գործընթացն ապացուցել է, որ արդյունավետ է և պակաս ռեսուրսներ պահանջող՝ դիֆուզիոն մոդելները դարձնելով ինտելեկտուալ ինտելեկտի համայնքում թեժ թեմա:

Իրական շրջադարձային պահը եղավ մոտ 2020 թվականին՝ մի շարք նորարարական փաստաթղթերով և ներդրմամբ. OpenAI-ի CLIP-ը տեխնոլոգիա, որը զգալիորեն զարգացրեց դիֆուզիոն մոդելների հնարավորությունները։ Սա դիֆուզիոն մոդելները դարձրեց բացառիկ լավ տեքստ-պատկեր սինթեզում՝ թույլ տալով նրանց ստեղծել իրատեսական պատկերներ տեքստային նկարագրություններից: Այս բեկումը եղել է ոչ միայն պատկերների ստեղծման, այլ նաև նման ոլորտներում երաժշտական ​​կոմպոզիցիա և կենսաբժշկական հետազոտություն.

Այսօր դիֆուզիոն մոդելները ոչ միայն ակադեմիական հետաքրքրության թեմա են, այլ օգտագործվում են գործնական, իրական սցենարներում:

Գեներատիվ մոդելավորում և ինքնորոշման շերտեր՝ DALL-E 3

Այս ոլորտում կարևոր առաջընթացներից մեկը եղել է գեներատիվ մոդելավորման էվոլյուցիան, որտեղ առաջատար են նմուշառման վրա հիմնված մոտեցումները, ինչպիսիք են ավտոռեգեսիվ գեներատիվ մոդելավորումը և դիֆուզիոն գործընթացները: Նրանք փոխակերպել են տեքստից պատկեր մոդելները՝ հանգեցնելով կատարողականի կտրուկ բարելավման: Պատկերի ստեղծումը բաժանելով դիսկրետ քայլերի, այս մոդելները դարձել են ավելի դյուրաշարժ և հեշտ նեյրոնային ցանցերի համար սովորելը:

Զուգահեռաբար վճռորոշ դեր է խաղացել ինքնաուշադրության շերտերի օգտագործումը։ Այս շերտերը, միասին դրված, օգնել են ստեղծել պատկերներ՝ առանց անուղղակի տարածական կողմնակալության անհրաժեշտության, որը ընդհանուր խնդիր է ոլորումների հետ: Այս տեղաշարժը թույլ է տվել տեքստից պատկեր մոդելներին չափվել և կատարելագործվել հուսալիորեն՝ շնորհիվ տրանսֆորմատորների մասշտաբավորման լավ հասկացված հատկությունների:

Մարտահրավերներ և լուծումներ պատկերների ստեղծման մեջ

Չնայած այս առաջընթացին, պատկերների ստեղծման կառավարելիությունը մնում է մարտահրավեր: Խնդիրներ, ինչպիսիք են արագ հետևելը, որտեղ մոդելը կարող է սերտորեն չհամապատասխանել մուտքագրված տեքստին, տարածված են եղել: Այս խնդիրը լուծելու համար առաջարկվել են նոր մոտեցումներ, ինչպիսիք են ենթագրերի բարելավումը, որոնք ուղղված են ուսումնական տվյալների հավաքածուներում տեքստի և պատկերների զուգակցման որակի բարձրացմանը:

Վերնագրի բարելավում. Նոր մոտեցում

Ենթագրերի բարելավումը ներառում է պատկերների համար ավելի որակյալ ենթագրերի ստեղծում, որն իր հերթին օգնում է ավելի ճշգրիտ տեքստից պատկեր մոդելներ պատրաստել: Սա ձեռք է բերվում պատկերի ամուր վերնագրի միջոցով, որն ապահովում է պատկերների մանրամասն և ճշգրիտ նկարագրություններ: Այս բարելավված ենթագրերի վերապատրաստման միջոցով DALL-E 3-ը կարողացել է հասնել ուշագրավ արդյունքների, որոնք շատ նման են մարդկանց կողմից ստեղծված լուսանկարներին և արվեստի գործերին:

Սինթետիկ տվյալների ուսուցում

Սինթետիկ տվյալների վրա ուսուցման հայեցակարգը նոր չէ: Այնուամենայնիվ, այստեղ եզակի ներդրումը վեպի, նկարագրական պատկերների վերնագրերի համակարգի ստեղծման մեջ է: Գեներատիվ մոդելների ուսուցման համար սինթետիկ ենթագրերի օգտագործման ազդեցությունը զգալի է եղել, ինչը հանգեցրել է հուշումներին ճշգրիտ հետևելու մոդելի ունակության բարելավմանը:

DALL-E 3-ի գնահատում

Բազմաթիվ գնահատման և նախորդ մոդելների հետ համեմատելու միջոցով, ինչպիսիք են DALL-E 2-ը և Stable Diffusion XL-ը, DALL-E 3-ը ցույց է տվել բարձր արդյունավետություն, հատկապես արագ հետևելու հետ կապված առաջադրանքներում:

Տեքստ-պատկեր մոդելների համեմատություն տարբեր գնահատումների վրա

Տեքստ-պատկեր մոդելների համեմատություն տարբեր գնահատումների վրա

Ավտոմատացված գնահատումների և հենանիշերի օգտագործումը հստակ ապացույցներ է տվել դրա հնարավորությունների մասին՝ ամրապնդելով իր դիրքը՝ որպես տեքստից պատկեր գեներատորի գերժամանակակից տեխնոլոգիա:

DALL-E 3 հուշումներ և կարողություններ

DALL-E 3-ն առաջարկում է ավելի տրամաբանական և կատարելագործված մոտեցում վիզուալներ ստեղծելու համար: Ոլորելիս կնկատեք, թե ինչպես է DALL-E-ն ստեղծում յուրաքանչյուր պատկեր՝ ճշգրտության և երևակայության խառնուրդով, որը ռեզոնանսվում է տվյալ հուշման հետ:

Ի տարբերություն իր նախորդի՝ այս արդիականացված տարբերակը գերազանցում է տեսարանի ներսում առարկաները բնական կերպով դասավորելու և մարդու առանձնահատկությունները ճշգրիտ պատկերելու մեջ՝ մինչև ձեռքի մատների ճիշտ քանակությունը: Բարելավումները տարածվում են ավելի նուրբ մանրամասների վրա և այժմ հասանելի են ավելի բարձր լուծաչափով՝ ապահովելով ավելի իրատեսական և պրոֆեսիոնալ արդյունք:

Էական բարելավումներ են տեսել նաև տեքստի վերարտադրման հնարավորությունները: Այնտեղ, որտեղ DALL-E-ի նախորդ տարբերակները արտադրում էին անհեթեթ տեքստ, DALL-E 3-ն այժմ կարող է առաջացնել ընթեռնելի և պրոֆեսիոնալ ոճով տառեր (երբեմն) և նույնիսկ երբեմն մաքուր պատկերանշաններ:

Զգալիորեն բարելավվել է մոդելի պատկերացումները բարդ և նրբերանգային պատկերների հարցումների վերաբերյալ: DALL-E 3-ն այժմ կարող է ճշգրիտ հետևել մանրամասն նկարագրություններին, նույնիսկ բազմաթիվ տարրերով և կոնկրետ հրահանգներով սցենարներում՝ ցույց տալով համահունչ և լավ կազմված պատկերներ ստեղծելու իր կարողությունը: Եկեք ուսումնասիրենք որոշ հուշումներ և ստացված համապատասխան արդյունքը.

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա (Նշեք, որ ձախ պաստառում սխալ ուղղագրություն կա)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա (Նշեք, որ երկու պաստառներն էլ ունեն սխալ ուղղագրություն)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E 3 պատկերներ՝ հիմնված տեքստային հուշումների վրա

DALL-E-ի սահմանափակումներ և ռիսկ 3

OpenAI-ը զգալի քայլեր է ձեռնարկել DALL-E 3-ի ուսուցման տվյալներից պարզ բովանդակությունը զտելու համար՝ նպատակ ունենալով նվազեցնել կողմնակալությունները և բարելավել մոդելի արդյունքը: Սա ներառում է հատուկ զտիչների կիրառում զգայուն բովանդակության կատեգորիաների համար և ավելի լայն ֆիլտրերի համար շեմերի վերանայում: Մեղմացման կույտը ներառում է նաև երաշխիքների մի քանի շերտեր, ինչպիսիք են ChatGPT-ում զգայուն թեմաների մերժման մեխանիզմները, քաղաքականության խախտումները կանխելու համար արագ մուտքագրման դասակարգիչները, բովանդակության որոշակի կատեգորիաների արգելափակման ցուցակները և փոխակերպումները՝ ապահովելու համար, որ հրահանգները համապատասխանեցվեն ուղեցույցներին:

Չնայած իր առաջընթացին, DALL-E 3-ը սահմանափակումներ ունի տարածական հարաբերությունները հասկանալու, երկար տեքստի ճշգրիտ մատուցման և հատուկ պատկերներ ստեղծելու հարցում: OpenAI-ն ընդունում է այս մարտահրավերները և աշխատում է հետագա տարբերակների բարելավման վրա:

Ընկերությունը նաև աշխատում է արհեստական ​​ինտելեկտի ստեղծած պատկերները մարդկանց կողմից արված պատկերներից տարբերելու ուղիների վրա՝ արտացոլելով նրանց նվիրվածությունը թափանցիկության և AI-ի պատասխանատու օգտագործմանը:

ԴԱԼ·Է

DALL E 3

DALL-E 3-ը՝ վերջին տարբերակը, հասանելի կլինի փուլերով՝ սկսած հատուկ հաճախորդների խմբերից և հետագայում ընդլայնվելով դեպի հետազոտական ​​լաբորատորիաներ և API ծառայություններ: Այնուամենայնիվ, անվճար հրապարակային թողարկման ամսաթիվը դեռ հաստատված չէ:

OpenAI-ն իսկապես նոր ստանդարտ է սահմանում AI-ի ոլորտում DALL-E 3-ի միջոցով՝ անխափան կերպով կամրջելով բարդ տեխնիկական հնարավորությունները և օգտագործողի համար հարմար ինտերֆեյսները: DALL-E 3-ի ինտեգրումը լայնորեն օգտագործվող հարթակներում, ինչպիսին Bing-ն է, արտացոլում է մասնագիտացված հավելվածներից անցում դեպի ժամանցի և օգտակարության ավելի լայն, ավելի մատչելի ձևեր:

Առաջիկա տարիներին խաղի իրական փոփոխությունը, հավանաբար, կլինի նորարարության և օգտագործողների հզորացման միջև հավասարակշռությունը: Այն ընկերությունները, որոնք զարգանում են, կլինեն նրանք, որոնք ոչ միայն կանցնեն AI-ի սահմանները, այլև օգտատերերին կապահովեն իրենց ուզած ինքնավարությունն ու վերահսկողությունը: OpenAI-ը, էթիկական AI-ի նկատմամբ իր հանձնառությամբ, ուշադիր նավարկում է այս ճանապարհը: Նպատակը պարզ է՝ ստեղծել AI գործիքներ, որոնք ոչ միայն հզոր են, այլև վստահելի և ներառական՝ ապահովելով, որ AI-ի առավելությունները հասանելի են բոլորին:

Ես անցկացրել եմ վերջին հինգ տարիները՝ ընկղմվելով մեքենայական ուսուցման և խորը ուսուցման հետաքրքրաշարժ աշխարհում: Իմ կիրքն ու փորձառությունը ստիպել են ինձ ներդրում ունենալ ավելի քան 50 տարբեր ծրագրային ապահովման ինժեներական նախագծերում՝ հատուկ ուշադրություն դարձնելով AI/ML-ին: Իմ շարունակական հետաքրքրասիրությունը նաև ինձ ձգում է դեպի Բնական լեզվի մշակումը, մի ոլորտ, որը ես ցանկանում եմ հետագայում ուսումնասիրել: