Արհեստական բանականություն

Ուսումնասիրելով Google DeepMind-ի նոր Երկվորյակները. ինչի՞ մասին է խոսքը:

Թարմացվել է on Դեկտեմբերի 21, 2023

Արհեստական ինտելեկտի (AI) աշխարհում Google DeepMind-ի վերջին ստեղծումը, Երկվորյակ, աղմուկ է առաջացնում: Այս նորարարական զարգացումը նպատակ ունի լուծելու մարդկային ընկալումը վերարտադրելու բարդ մարտահրավերը, մասնավորապես՝ տարբեր զգայական միջոցները ինտեգրելու նրա կարողությունը: Մարդկային ընկալումը, որն իր էությամբ մուլտիմոդալ է, միաժամանակ օգտագործում է բազմաթիվ ալիքներ՝ շրջակա միջավայրը հասկանալու համար: Մուլտիմոդալ AI, ոգեշնչվելով այս բարդությունից՝ ձգտում է ինտեգրվել, ըմբռնել և պատճառաբանել տարբեր աղբյուրներից ստացվող տեղեկատվությունը, արտացոլելով մարդու նման ընկալման կարողությունները:

Մուլտիմոդալ AI-ի բարդությունը

Թեև AI-ն առաջընթաց է գրանցել առանձին զգայական ռեժիմների կառավարման գործում, իսկական մուլտիմոդալ AI-ի ձեռքբերումը մնում է ահռելի մարտահրավեր: Ընթացիկ մեթոդները ներառում են տարբեր եղանակների համար առանձին բաղադրիչների ուսուցում և դրանց համադրում, բայց դրանք հաճախ չեն կարողանում բարդ և հայեցակարգային հիմնավորում պահանջող առաջադրանքներում:

Երկվորյակների առաջացումը

Մարդկային մուլտիմոդալ ընկալումը կրկնելու ձգտելով՝ Google Gemini-ն հայտնվել է որպես խոստումնալից զարգացում: Այս ստեղծագործությունը եզակի հեռանկար է առաջարկում AI-ի ներուժին՝ վերծանելու մարդկային ընկալման բարդությունները: Երկվորյակները առանձնահատուկ մոտեցում են ցուցաբերում՝ լինելով յուրահատկորեն մուլտիմոդալ և անցնելով նախնական վերապատրաստում տարբեր եղանակների վերաբերյալ: Լրացուցիչ մուլտիմոդալ տվյալների հետ հետագա ճշգրտման միջոցով Երկվորյակը կատարելագործում է իր արդյունավետությունը՝ խոստումնալից հասկանալով և պատճառաբանելով տարբեր մուտքերի մասին:

Ի՞նչ է Երկվորյակը:

Google Gemini6 թվականի դեկտեմբերի 2023-ին ներկայացված մուլտիմոդալ AI մոդելների ընտանիք է, որը մշակվել է Alphabet-ի Google DeepMind ստորաբաժանման կողմից՝ Google Research-ի հետ համատեղ: Gemini 1.0-ը նախատեսված է բովանդակություն ընկալելու և գեներացնելու համար տվյալների տեսակների սպեկտրում, ներառյալ տեքստը, ձայնը, պատկերները և տեսանյութերը:

Երկվորյակների առանձնահատուկ առանձնահատկությունը նրա բնիկ բազմամոդալությունն է, որը առանձնացնում է այն սովորական մուլտիմոդալ AI մոդելներից: Այս եզակի հնարավորությունը Երկվորյակներին թույլ է տալիս անխափան մշակել և հիմնավորել տվյալների տարբեր տեսակներ, ինչպիսիք են ձայնը, պատկերները և տեքստը: Հատկանշական է, որ Երկվորյակն օժտված է միջմոդալ տրամաբանությամբ, որը թույլ է տալիս մեկնաբանել ձեռագիր գրառումները, գրաֆիկները և դիագրամները բարդ խնդիրների լուծման համար: Նրա ճարտարապետությունն աջակցում է տեքստի, պատկերների, աուդիո ալիքի ձևերի և վիդեո շրջանակների ուղղակի ներթափանցմանը որպես միախառնված հաջորդականություն:

Երկվորյակների ընտանիք

Երկվորյակները հպարտանում են մի շարք մոդելներով, որոնք հարմարեցված են հատուկ օգտագործման դեպքերին և տեղակայման սցենարներին: Ակնկալվում է, որ Ultra մոդելը, որը նախատեսված է խիստ բարդ առաջադրանքների համար, հասանելի կլինի 2024 թվականի սկզբին: Pro մոդելը առաջնահերթություն է տալիս կատարողականությանը և մասշտաբայնությանը, որը հարմար է Google Bard-ի նման ամուր հարթակների համար: Ի հակադրություն, Nano մոդելը օպտիմիզացված է սարքի վրա օգտագործման համար և գալիս է երկու տարբերակով՝ Nano-1՝ 1.8 միլիարդ պարամետրերով և Nano-2՝ 3.25 միլիարդ պարամետրերով: Այս Nano մոդելները անխափան կերպով ինտեգրվում են սարքերին, այդ թվում՝ Google Pixel 8 Pro սմարթֆոնին:

Երկվորյակներ ընդդեմ ChatGPT

Ընկերության աղբյուրների համաձայն, հետազոտողները լայնորեն համեմատել են Gemini-ի ChatGPT տարբերակների հետ, որտեղ այն գերազանցել է ChatGPT 3.5-ին համատարած փորձարկումներում: Gemini Ultra-ն գերազանցում է 30 լայնորեն օգտագործվող չափորոշիչներից 32-ը մեծ լեզվական մոդելների հետազոտության մեջ: Վաստակելով 90.0% MMLU-ում (բազմաֆունկցիոնալ լեզվի ըմբռնում)՝ Gemini Ultra-ն գերազանցում է մարդկային փորձագետներին՝ ցուցադրելով իր հզորությունը բազմաֆունկցիոնալ լեզվի զանգվածային ընկալման մեջ: MMLU-ն բաղկացած է 57 առարկաներից, ինչպիսիք են մաթեմատիկա, ֆիզիկա, պատմություն, իրավունք, բժշկություն և էթիկա՝ թե՛ համաշխարհային գիտելիքները և թե՛ խնդիրներ լուծելու կարողությունները ստուգելու համար: Ուսուցանված լինելով մուլտիմոդալ՝ Երկվորյակը կարող է մշակել տարբեր տեսակի մեդիա՝ առանձնացնելով այն մրցակցային AI լանդշաֆտում:

Օգտագործեք դեպքեր

Երկվորյակների առաջացումը ծնեց մի շարք օգտագործման դեպքեր, որոնցից մի քանիսը հետևյալն են.

Ընդլայնված մուլտիմոդալ պատճառաբանություն. Երկվորյակը գերազանցում է առաջադեմ մուլտիմոդալ դատողությունը՝ միաժամանակ ճանաչելով և ըմբռնելով տեքստը, պատկերները, ձայնը և այլն: Այս համապարփակ մոտեցումը մեծացնում է նրբերանգ տեղեկատվությունը ընկալելու և բացատրելու և պատճառաբանելու նրա կարողությունը, հատկապես բարդ առարկաներում, ինչպիսիք են մաթեմատիկան և ֆիզիկան:
Համակարգչային ծրագրավորում. Երկվորյակը գերազանցում է լայնորեն օգտագործվող լեզուներով բարձրորակ համակարգչային ծրագրերի ընկալման և ստեղծման գործում: Այն կարող է օգտագործվել նաև որպես շարժիչ ավելի առաջադեմ կոդավորման համակարգերի համար, ինչպես ցույց է տրված մրցակցային ծրագրավորման խնդիրները լուծելիս:
Բժշկական ախտորոշման տրանսֆորմացիա. Երկվորյակների տվյալների մշակման մուլտիմոդալ հնարավորությունները կարող են նշել բժշկական ախտորոշման փոփոխություն՝ պոտենցիալ ուժեղացնելով որոշումների կայացման գործընթացները՝ ապահովելով տվյալների տարբեր աղբյուրների հասանելիություն:
Փոխակերպելով ֆինանսական կանխատեսումները. Երկվորյակները վերափոխում են ֆինանսական կանխատեսումները՝ մեկնաբանելով ֆինանսական հաշվետվությունների և շուկայական միտումների տարբեր տվյալներ՝ արագ պատկերացումներ տալով տեղեկացված որոշումների կայացման համար:

Խնդիրները

Թեև Google Gemini-ն տպավորիչ քայլեր է կատարել մուլտիմոդալ AI-ի առաջխաղացման գործում, այն բախվում է որոշակի մարտահրավերների, որոնք մանրակրկիտ քննարկում են պահանջում: Տվյալների լայնածավալ ուսուցման շնորհիվ անհրաժեշտ է զգույշ մոտենալ դրան՝ ապահովելու օգտատերերի տվյալների պատասխանատու օգտագործումը՝ անդրադառնալով գաղտնիության և հեղինակային իրավունքի հետ կապված խնդիրներին: Վերապատրաստման տվյալների պոտենցիալ կողմնակալությունը նաև արդարության հետ կապված խնդիրներ է առաջացնում, ինչը պահանջում է էթիկական թեստավորում նախքան որևէ հրապարակային հրապարակում՝ նման կողմնակալությունները նվազագույնի հասցնելու համար: Մտահոգություններ կան նաև կիբերհարձակումների համար AI-ի նման հզոր մոդելների պոտենցիալ չարաշահման վերաբերյալ՝ ընդգծելով պատասխանատու տեղակայման և շարունակական վերահսկողության կարևորությունը դինամիկ AI լանդշաֆտում:

Երկվորյակների ապագա զարգացումը

Google-ը հաստատել է իր հանձնառությունը զարգացնել Երկվորյակները՝ հզորացնելով նրան ապագա տարբերակների համար՝ պլանավորման և հիշողության ոլորտում առաջընթացներով: Բացի այդ, ընկերությունը նպատակ ունի ընդլայնել համատեքստի պատուհանը՝ հնարավորություն տալով Երկվորյակներին մշակել ավելի շատ տեղեկատվություն և տրամադրել ավելի նրբերանգ պատասխաններ: Մինչ մենք անհամբեր սպասում ենք հնարավոր բեկումներին, Երկվորյակների առանձնահատուկ հնարավորությունները խոստումնալից հեռանկարներ են առաջարկում արհեստական ինտելեկտի ապագայի համար:

The Bottom Line

Google DeepMind-ի Gemini-ն նշանակում է AI ինտեգրման պարադիգմային փոփոխություն՝ գերազանցելով ավանդական մոդելներին: Մայրենի բազմամոդալության և միջմոդալ տրամաբանության շնորհիվ Երկվորյակը գերազանցում է բարդ առաջադրանքները: Չնայած մարտահրավերներին, դրա կիրառությունները առաջադեմ հիմնավորման, ծրագրավորման, ախտորոշման և ֆինանսական կանխատեսումների վերափոխման մեջ ընդգծում են դրա ներուժը: Քանի որ Google-ը հավատարիմ է իր հետագա զարգացմանը, Gemini-ի խորը ազդեցությունը նրբորեն ձևափոխում է AI լանդշաֆտը` նշանավորելով մուլտիմոդալ հնարավորությունների նոր դարաշրջանի սկիզբը:

Հարակից թեմաներ.Երկվորյակ Մուլտիմոդալ AI

Հաջորդը

Midjourney's V6-ը AI պատկերների ստեղծման նոր դարաշրջան է բերում

Բաց մի թողեք

Վերարտադրելիության վերաիմաստավորում՝ որպես նոր սահման AI հետազոտության մեջ

Դոկտոր Թեհսեյն Զիա

Դոկտոր Թեհսեն Զիան Իսլամաբադի ԿՈՄՍԱԹՍ համալսարանի պաշտոնային դոցենտ է, AI-ի դոկտորի աստիճան Վիեննայի տեխնոլոգիական համալսարանից, Ավստրիա: Մասնագիտանալով արհեստական ինտելեկտի, մեքենայական ուսուցման, տվյալների գիտության և համակարգչային տեսլականի ոլորտներում՝ նա նշանակալի ներդրում է ունեցել հեղինակավոր գիտական ամսագրերում հրապարակումներով: Դոկտոր Թեհսենը նաև ղեկավարել է տարբեր արդյունաբերական նախագծեր՝ որպես գլխավոր քննիչ և ծառայել է որպես AI խորհրդատու: