քոթուկ Google-ի մուլտիմոդալ AI Gemini - Տեխնիկական խորը սուզում - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Google-ի բազմամոդալ AI Երկվորյակ – Տեխնիկական խորը սուզում

mm
Թարմացվել է on
Google-ի առաջին բազմամոդալ մոդելը՝ Երկվորյակ

Google-ի գործադիր տնօրեն Սունդար Պիչայը Google DeepMind-ից Դեմիս Հասաբիսի հետ միասին. Երկվորյակներին ներկայացրեց 2023 թվականի դեկտեմբերին. Լեզուների այս նոր մոդելը ինտեգրված է Google-ի ապրանքների հսկայական շարքում՝ առաջարկելով բարելավումներ, որոնք ալիքվում են միլիոնավոր մարդկանց կողմից օգտագործվող ծառայությունների և գործիքների միջոցով:

Gemini-ը՝ Google-ի առաջադեմ մուլտիմոդալ AI-ն, ծնվել է DeepMind-ի և Brain AI-ի միասնական լաբորատորիաների համատեղ ջանքերից: Երկվորյակը կանգնած է իր նախորդների ուսերին՝ խոստանալով մատուցել ավելի փոխկապակցված և խելացի հավելվածներ:

Google Gemini-ի հայտարարությունը, որը սերտորեն դրվել է Bard-ի, Duet AI-ի և PaLM 2 LLM-ի դեբյուտից հետո, ցույց է տալիս Google-ի հստակ մտադրությունը՝ ոչ միայն մրցակցել, այլև առաջնորդել AI-ի հեղափոխությունը:

Հակառակ արհեստական ​​ինտելեկտի ձմռան մասին ցանկացած պատկերացումների, Երկվորյակների մեկնարկը ենթադրում է AI-ի բարգավաճ գարուն՝ լի ներուժով և աճով: Երբ մենք մտածում ենք ChatGPT-ի ի հայտ գալուց հետո մեկ տարվա մասին, որն ինքնին բեկումնային պահ էր AI-ի համար, Google-ի քայլը ցույց է տալիս, որ ոլորտի ընդլայնումը հեռու է ավարտվելուց. իրականում այն ​​կարող է պարզապես արագանալ:

Ի՞նչ է Երկվորյակը:

Google-ի Gemini մոդելն ի վիճակի է մշակել տվյալների տարբեր տեսակներ, ինչպիսիք են տեքստը, պատկերները, աուդիո և տեսանյութերը: Այն գալիս է երեք տարբերակով՝Ծայրահեղ հայացքների տեր մարդ ծայրահեղ, յուրաքանչյուր, եւ Nano— յուրաքանչյուրը հարմարեցված է հատուկ կիրառությունների համար՝ բարդ հիմնավորումից մինչև սարքում օգտագործելը: Ultra-ն գերազանցում է բազմաշերտ առաջադրանքները և հասանելի կլինի Bard Advanced-ում, մինչդեռ Pro-ն առաջարկում է կատարողականի և ռեսուրսների արդյունավետության հավասարակշռություն, որն արդեն ինտեգրված է Bard-ում՝ տեքստային հուշումների համար: Nano-ն, որը օպտիմիզացված է սարքի վրա տեղակայման համար, գալիս է երկու չափսի և ունի ապարատային օպտիմիզացիա, ինչպես օրինակ՝ 4-բիթանոց քվանտացումը՝ Pixel 8 Pro-ի նման սարքերում անցանց օգտագործման համար:

Երկվորյակի ճարտարապետությունը եզակի է իր բնիկ մուլտիմոդալ ելքային ունակությամբ՝ օգտագործելով դիսկրետ պատկերային նշաններ՝ պատկեր ստեղծելու համար և ինտեգրելով աուդիո առանձնահատկությունները Համընդհանուր խոսքի մոդելից՝ աուդիո նրբերանգային ընկալման համար: Վիդեո տվյալները որպես հաջորդական պատկերներ կարգավորելու նրա կարողությունը՝ միահյուսված տեքստի կամ աուդիո մուտքերի հետ, ցույց է տալիս նրա բազմամոդալ հմտությունը:

Երկվորյակները աջակցում են տեքստի, պատկերի, աուդիո և տեսանյութի հաջորդականությունը որպես մուտքագրում

Երկվորյակները աջակցում են տեքստի, պատկերի, աուդիո և տեսանյութի հաջորդականությունը որպես մուտքագրում

Մուտք գործելով Երկվորյակներ

Gemini 1.0-ը տարածվում է Google-ի էկոհամակարգում, ներառյալ Bard-ը, որն այժմ օգտվում է Gemini Pro-ի կատարելագործված հնարավորություններից: Google-ը նաև ինտեգրել է Gemini-ին իր Որոնման, Գովազդի և Duet ծառայությունների մեջ՝ բարելավելով օգտվողների փորձը ավելի արագ և ճշգրիտ պատասխաններով:

Նրանց համար, ովքեր ցանկանում են օգտագործել Gemini-ի հնարավորությունները, Google AI Studio-ն և Google Cloud Vertex-ն առաջարկում են մուտք դեպի Gemini Pro, վերջինս ապահովում է ավելի մեծ անհատականացում և անվտանգության առանձնահատկություններ:

Gemini Pro-ի կողմից սնուցվող Bard-ի ուժեղացված հնարավորությունները զգալու համար օգտվողները կարող են կատարել հետևյալ պարզ քայլերը.

  1. Նավարկեք դեպի ԲարդԲացեք ձեր նախընտրած վեբ բրաուզերը և անցեք Bard կայք:
  2. Ապահով մուտքՄուտք գործեք ծառայություն՝ մուտք գործելով ձեր Google հաշիվ՝ ապահովելով անխափան և անվտանգ փորձ:
  3. Ինտերակտիվ ԶրուցարանԱյժմ կարող եք օգտագործել Bard-ը, որտեղ կարելի է ընտրել Gemini Pro-ի առաջադեմ գործառույթները:

Բազմամոդալության հզորությունը.

Երկվորյակն իր հիմքում օգտագործում է տրանսֆորմատորների վրա հիմնված ճարտարապետություն, որը նման է հաջողակ NLP մոդելներում, ինչպիսիք են GPT-3-ը: Այնուամենայնիվ, Երկվորյակի յուրահատկությունը կայանում է նրանում, որ նա կարող է մշակել և ինտեգրել տեղեկատվություն բազմաթիվ եղանակներից, ներառյալ տեքստը, պատկերները և ծածկագիրը: Սա ձեռք է բերվում նոր տեխնիկայի միջոցով, որը կոչվում է խաչաձեւ մոդալ ուշադրություն, որը թույլ է տալիս մոդելին սովորել փոխհարաբերություններն ու կախվածությունները տարբեր տեսակի տվյալների միջև։

Ահա Երկվորյակի հիմնական բաղադրիչների ամփոփումը.

  • Մուլտիմոդալ կոդավորիչ. Այս մոդուլը յուրաքանչյուր եղանակից (օրինակ՝ տեքստ, պատկեր) ինքնուրույն մշակում է մուտքային տվյալները՝ արդյունահանելով համապատասխան հատկանիշներ և առաջացնելով անհատական ​​ներկայացումներ:
  • Կրոսմոդալ ուշադրության ցանց. Այս ցանցը Երկվորյակների սիրտն է: Այն թույլ է տալիս մոդելին սովորել փոխհարաբերություններ և կախվածություն տարբեր ներկայացումների միջև՝ հնարավորություն տալով նրանց «խոսել» միմյանց հետ և հարստացնել իրենց հասկացողությունը:
  • Մուլտիմոդալ ապակոդավորիչ. Այս մոդուլն օգտագործում է միջմոդալ ուշադրության ցանցի կողմից ստեղծված հարստացված ներկայացումները՝ կատարելու տարբեր առաջադրանքներ, ինչպիսիք են պատկերի վերնագրերը, տեքստից պատկերի ստեղծումը և կոդի ստեղծումը:

Երկվորյակների մոդելը ոչ միայն տեքստի կամ պատկերների ըմբռնումն է, այլ տարբեր տեսակի տեղեկատվության ինտեգրումն այնպես, որ շատ ավելի մոտ է նրան, թե ինչպես ենք մենք՝ որպես մարդիկ, ընկալում աշխարհը: Օրինակ, Երկվորյակները կարող են նայել պատկերների հաջորդականությանը և որոշել դրանցում գտնվող առարկաների տրամաբանական կամ տարածական կարգը: Այն կարող է նաև վերլուծել առարկաների նախագծման առանձնահատկությունները՝ դատողություններ անելու համար, օրինակ՝ երկու մեքենաներից որն ավելի աերոդինամիկ ձև ունի:

Սակայն Երկվորյակի տաղանդները դուրս են գալիս միայն տեսողական ըմբռնումից: Այն կարող է մի շարք հրահանգներ վերածել կոդի՝ ստեղծելով գործնական գործիքներ, ինչպիսին է հետհաշվարկի ժամանակաչափը, որը ոչ միայն գործում է ըստ հրահանգների, այլև ներառում է ստեղծագործական տարրեր, ինչպիսիք են մոտիվացիոն էմոջիները՝ օգտատերերի փոխազդեցությունը բարելավելու համար: Սա ցույց է տալիս այն առաջադրանքները կատարելու կարողությունը, որոնք պահանջում են ստեղծագործական և ֆունկցիոնալության միախառնում, հմտություններ, որոնք հաճախ համարվում են հստակ մարդկային:

Երկվորյակների կարողությունները. Տարածական հիմնավորում

Երկվորյակների կարողությունները. Տարածական հիմնավորում (Աղբյուր)

 

Երկվորյակների հնարավորությունները տարածվում են ծրագրավորման առաջադրանքների կատարման վրա

Երկվորյակների կարողությունները տարածվում են ծրագրավորման առաջադրանքների կատարման վրա (Աղբյուր)

Gemini-ի բարդ դիզայնը հիմնված է նեյրոնային ցանցերի հետազոտությունների հարուստ պատմության վրա և օգտագործում է Google-ի գերժամանակակից TPU տեխնոլոգիան մարզումների համար: Հատկապես, Gemini Ultra-ն նոր չափանիշներ է սահմանել AI-ի տարբեր տիրույթներում՝ ցուցադրելով ուշագրավ արդյունավետության բարձրացում մուլտիմոդալ հիմնավորման առաջադրանքներում:

Բարդ տվյալները վերլուծելու և հասկանալու իր ունակությամբ՝ Gemini-ն առաջարկում է լուծումներ իրական աշխարհի կիրառությունների համար, հատկապես կրթության ոլորտում: Այն կարող է վերլուծել և ուղղել խնդիրների լուծումները, ինչպես ֆիզիկայում, հասկանալով ձեռագիր նշումները և ապահովելով մաթեմատիկական ճշգրիտ շարադրանք: Նման հնարավորությունները հուշում են ապագա, որտեղ AI-ն աջակցում է կրթական միջավայրում՝ ուսանողներին և մանկավարժներին առաջարկելով սովորելու և խնդիրների լուծման առաջադեմ գործիքներ:

Gemini's-ն օգտագործվել է AlphaCode 2-ի նման գործակալներ ստեղծելու համար, որը գերազանցում է մրցակցային ծրագրավորման խնդիրներին: Սա ցույց է տալիս Երկվորյակի ներուժը՝ գործելու որպես ընդհանուր արհեստական ​​ինտելեկտ, որը կարող է լուծել բարդ, բազմաքայլ խնդիրներ:

Gemini Nano-ն բերում է արհեստական ​​ինտելեկտի ուժը ամենօրյա սարքերին՝ պահպանելով տպավորիչ կարողություններ այնպիսի առաջադրանքներում, ինչպիսիք են ամփոփումն ու ընթերցանությունը, ինչպես նաև կոդավորումը և STEM-ի հետ կապված մարտահրավերները: Այս փոքր մոդելները ճշգրտորեն կարգավորվել են ցածր հիշողության սարքերում բարձրորակ AI գործառույթներ առաջարկելու համար՝ զարգացած AI-ն ավելի հասանելի դարձնելով, քան երբևէ:

Երկվորյակների զարգացումը ներառում էր նորարարություններ վերապատրաստման ալգորիթմների և ենթակառուցվածքների մեջ՝ օգտագործելով Google-ի վերջին TPU-ները: Սա թույլ տվեց արդյունավետ մասշտաբի և ուժեղ ուսուցման գործընթացներ՝ ապահովելով, որ նույնիսկ ամենափոքր մոդելներն ապահովում են բացառիկ արդյունավետություն:

Երկվորյակների ուսուցման տվյալների բազան նույնքան բազմազան է, որքան նրա հնարավորությունները, ներառյալ վեբ փաստաթղթերը, գրքերը, ծածկագիրը, պատկերները, աուդիո և տեսանյութերը: Այս բազմամոդալ և բազմալեզու տվյալների բազան երաշխավորում է, որ Gemini մոդելները կարող են արդյունավետորեն հասկանալ և մշակել բովանդակության տեսակների լայն տեսականի:

Երկվորյակ և GPT-4

Չնայած այլ մոդելների ի հայտ գալուն, բոլորի մտքում հարցն այն է, թե ինչպես է Google-ի Gemini-ն հակադրվում OpenAI-ի GPT-4-ին՝ ոլորտի նոր LLM-ների չափանիշին: Google-ի տվյալները ցույց են տալիս, որ թեև GPT-4-ը կարող է գերազանցել ընդհանուր տրամաբանական առաջադրանքները, Gemini Ultra-ն առաջատարն է գրեթե բոլոր մյուս ոլորտներում:

Երկվորյակ VS GPT-4

Երկվորյակ VS GPT-4

Վերոնշյալ համեմատական ​​աղյուսակը ցույց է տալիս Google-ի Gemini AI-ի տպավորիչ կատարումը տարբեր առաջադրանքների համար: Հատկանշական է, որ Gemini Ultra-ն ուշագրավ արդյունքների է հասել MMLU-ի չափանիշում՝ 90.04% ճշգրտությամբ, ինչը ցույց է տալիս նրա գերազանց ըմբռնումը բազմակի ընտրության հարցերում 57 առարկաների միջև:

GSM8K-ում, որը գնահատում է դասարանի մաթեմատիկայի հարցերը, Gemini Ultra-ն հավաքում է 94.4%՝ ցուցադրելով իր առաջադեմ թվաբանական մշակման հմտությունները: Կոդավորման հենանիշերում Gemini Ultra-ն ստացել է 74.4% միավոր HumanEval for Python կոդերի ստեղծման համար, ինչը ցույց է տալիս նրա ուժեղ ծրագրավորման լեզվի ըմբռնումը:

DROP հենանիշը, որը ստուգում է ընթերցանության ըմբռնումը, տեսնում է, որ Gemini Ultra-ն կրկին առաջատար է՝ 82.4% միավորով: Միևնույն ժամանակ, ողջամտության տրամաբանական թեստում, HellaSwag-ը, Gemini Ultra-ն հիանալի է հանդես գալիս, թեև այն չի գերազանցում GPT-4-ի կողմից սահմանված չափազանց բարձր ցուցանիշը:

Եզրափակում

Երկվորյակի եզակի ճարտարապետությունը, որն ապահովված է Google-ի առաջադեմ տեխնոլոգիայով, նրան դիրքավորում է որպես ահռելի խաղացող AI ասպարեզում՝ մարտահրավեր նետելով GPT-4 մոդելների կողմից սահմանված առկա չափանիշներին: Դրա տարբերակները՝ Ultra, Pro և Nano, յուրաքանչյուրը բավարարում է հատուկ կարիքները՝ հիմնավորման բարդ առաջադրանքներից մինչև սարքի վրա արդյունավետ հավելվածներ՝ ցուցադրելով Google-ի հանձնառությունը՝ հասանելի դարձնելու առաջադեմ AI-ն տարբեր հարթակներում և սարքերում:

Երկվորյակի ինտեգրումը Google-ի էկոհամակարգին` Bard-ից մինչև Google Cloud Vertex, ընդգծում է նրա ներուժը` բարելավելու օգտատերերի փորձառությունները ծառայությունների սպեկտրում: Այն խոստանում է ոչ միայն կատարելագործել առկա հավելվածները, այլև նոր ուղիներ բացել AI-ի վրա հիմնված լուծումների համար՝ լինի անհատականացված աջակցության, ստեղծագործական ջանքերի կամ բիզնեսի վերլուծության մեջ:

Մինչ մենք նայում ենք առաջ, AI մոդելների շարունակական առաջընթացը, ինչպիսին Gemini-ն է, ընդգծում է շարունակական հետազոտության և զարգացման կարևորությունը: Նման բարդ մոդելների ուսուցման և դրանց էթիկական և պատասխանատու կիրառման ապահովման մարտահրավերները մնում են քննարկման առաջնագծում:

Ես անցկացրել եմ վերջին հինգ տարիները՝ ընկղմվելով մեքենայական ուսուցման և խորը ուսուցման հետաքրքրաշարժ աշխարհում: Իմ կիրքն ու փորձառությունը ստիպել են ինձ ներդրում ունենալ ավելի քան 50 տարբեր ծրագրային ապահովման ինժեներական նախագծերում՝ հատուկ ուշադրություն դարձնելով AI/ML-ին: Իմ շարունակական հետաքրքրասիրությունը նաև ինձ ձգում է դեպի Բնական լեզվի մշակումը, մի ոլորտ, որը ես ցանկանում եմ հետագայում ուսումնասիրել: