стуб Гоогле-ов мултимодални АИ Гемини – технички дубоко зарон – Уните.АИ
Повежите се са нама

Вештачка интелигенција

Гоогле-ов мултимодални АИ Гемини – технички дубоко зарон

mm
Ажурирано on
Гоогле-ов први мултимодални модел: Близанци

Сундар Пицхаи, извршни директор Гоогле-а, заједно са Демисом Хассабисом из Гоогле ДеепМинд-а, су представила Близанци у децембру 2023. Овај нови велики језички модел интегрисан је у широку лепезу Гоогле-ових производа, нудећи побољшања која се протежу кроз услуге и алате које користе милиони.

Гемини, Гоогле-ов напредни мултимодални АИ, настао је из заједничких напора уједињених лабораторија ДеепМинд и Браин АИ. Гемини стоји на раменима својих претходника, обећавајући да ће испоручити међусобно повезанији и интелигентнији пакет апликација.

Најава Гоогле Гемини-а, која се налази уско након дебија Бард, Дует АИ и ПаЛМ 2 ЛЛМ, означава јасну намеру Гоогле-а да се не само такмичи већ и води у АИ револуцији.

Супротно свим идејама о зими вештачке интелигенције, лансирање Геминија сугерише успешно АИ пролеће, које врви потенцијалом и растом. Док размишљамо о години од појаве ЦхатГПТ-а, што је само по себи био револуционарни тренутак за АИ, Гуглов потез указује да је експанзија индустрије далеко од краја; у ствари, можда само убрзава.

Шта су Близанци?

Гоогле Гемини модел је способан да обрађује различите типове података као што су текст, слике, аудио и видео. Долази у три верзије -Ултра-, професионалац, и Нано—сваки скројен за специфичне апликације, од сложеног резоновања до употребе на уређају. Ултра се истиче у вишеструким задацима и биће доступан на Бард Адванцед-у, док Про нуди баланс перформанси и ефикасности ресурса, већ интегрисан у Бард за текстуалне упите. Нано, оптимизован за примену на уређају, долази у две величине и има хардверске оптимизације као што је 4-битна квантизација за коришћење ван мреже на уређајима као што је Пикел 8 Про.

Гемини архитектура је јединствена по својој изворној мултимодалној излазној могућности, користећи дискретне токене слике за генерисање слике и интегришући аудио карактеристике из Универзалног модела говора за нијансирано разумевање звука. Његова способност да обрађује видео податке као секвенцијалне слике, испреплетене са текстом или аудио улазима, илуструје његову мултимодалну моћ.

Гемини подржава секвенце текста, слике, звука и видеа као улазе

Гемини подржава секвенце текста, слике, звука и видеа као улазе

Приступ Близанцима

Гемини 1.0 се примењује у Гоогле-овом екосистему, укључујући Бард, који сада има користи од префињених могућности Гемини Про-а. Гоогле је такође интегрисао Гемини у своје услуге Сеарцх, Адс и Дует, побољшавајући корисничко искуство бржим и прецизнијим одговорима.

За оне који желе да искористе могућности Гемини-ја, Гоогле АИ Студио и Гоогле Цлоуд Вертек нуде приступ Гемини Про-у, при чему овај други пружа веће могућности прилагођавања и безбедности.

Да би искусили побољшане могућности Барда који покреће Гемини Про, корисници могу да предузму следеће једноставне кораке:

  1. Идите до Барда: Отворите жељени веб претраживач и идите на веб локацију Бард.
  2. Сигурна пријава: Приступите услузи тако што ћете се пријавити са својим Гоогле налогом, обезбеђујући беспрекорно и безбедно искуство.
  3. Интерактивно ћаскање: Сада можете да користите Бард, где се могу изабрати напредне функције Гемини Про-а.

Моћ мултимодалности:

У својој сржи, Гемини користи архитектуру засновану на трансформатору, сличну онима које се користе у успешним НЛП моделима као што је ГПТ-3. Међутим, јединственост Близанаца лежи у његовој способности да обрађује и интегрише информације из више модалитета, укључујући текст, слике и код. Ово се постиже новом техником тзв међумодална пажња, што омогућава моделу да научи односе и зависности између различитих типова података.

Ево рашчлањавања кључних компоненти Близанаца:

  • Мултимодални кодер: Овај модул обрађује улазне податке из сваког модалитета (нпр. текст, слика) независно, издвајајући релевантне карактеристике и генеришући појединачне репрезентације.
  • Међумодална мрежа пажње: Ова мрежа је срце Близанаца. Омогућава моделу да научи односе и зависности између различитих репрезентација, омогућавајући им да „разговарају“ једни са другима и обогате своје разумевање.
  • Мултимодални декодер: Овај модул користи обогаћене репрезентације које генерише унакрсна мрежа пажње за обављање различитих задатака, као што су натписи слика, генерисање текста у слику и генерисање кода.

Модел Близанаца није само у разумевању текста или слика – ради се о интеграцији различитих врста информација на начин који је много ближи начину на који ми, као људи, доживљавамо свет. На пример, Близанци могу погледати низ слика и одредити логички или просторни редослед објеката унутар њих. Такође може да анализира карактеристике дизајна објеката да би донео одлуке, као што је који од два аутомобила има аеродинамичнији облик.

Али таленти Близанаца превазилазе само визуелно разумевање. Може да претвори скуп инструкција у код, стварајући практичне алате као што је тајмер за одбројавање који не само да функционише према упутствима, већ укључује и креативне елементе, попут мотивационих емоџија, како би побољшао интеракцију корисника. Ово указује на способност да се носи са задацима који захтевају мешавину креативности и функционалности — вештине које се често сматрају изразито људским.

Способности Близанаца: Просторно Реасонинг

Способности Близанаца: просторно закључивање (извор)

 

Близанци се протежу на извршавање програмских задатака

Близанци се протежу на извршавање програмских задатака (извор)

Гемини софистицирани дизајн је заснован на богатој историји истраживања неуронских мрежа и користи Гоогле-ову најсавременију ТПУ технологију за обуку. Гемини Ултра је, посебно, поставио нова мерила у различитим доменима вештачке интелигенције, показујући изузетна побољшања перформанси у задацима мултимодалног резоновања.

Са својом способношћу да анализира и разуме сложене податке, Гемини нуди решења за примене у стварном свету, посебно у образовању. Може анализирати и исправљати решења проблема, као у физици, разумевањем руком писаних белешки и пружањем тачних математичких ставака. Такве могућности сугеришу будућност у којој АИ помаже у образовним окружењима, нудећи студентима и наставницима напредне алате за учење и решавање проблема.

Гемини'с је искоришћен за стварање агената као што је АлпхаЦоде 2, који се истиче у конкурентним програмским проблемима. Ово показује потенцијал Близанаца да делује као општа вештачка интелигенција, способна да се носи са сложеним проблемима у више корака.

Гемини Нано доноси моћ вештачке интелигенције у свакодневне уређаје, одржавајући импресивне способности у задацима као што су сумирање и разумевање прочитаног, као и изазови кодирања и СТЕМ. Ови мањи модели су фино подешени да понуде висококвалитетне АИ функционалности на уређајима са мање меморије, чинећи напредну АИ приступачнијом него икад.

Развој Геминија укључивао је иновације у алгоритмима за обуку и инфраструктуру, користећи најновије Гоогле-ове ТПУ-ове. Ово је омогућило ефикасно скалирање и робусне процесе обуке, обезбеђујући да чак и најмањи модели дају изузетне перформансе.

Скуп података за обуку за Гемини је разнолик колико и његове могућности, укључујући веб документе, књиге, код, слике, аудио и видео записе. Овај мултимодални и вишејезични скуп података осигурава да модели Гемини могу ефикасно да разумеју и обрађују широк спектар типова садржаја.

Близанци и ГПТ-4

Упркос појави других модела, свима се поставља питање како се Гоогле Гемини слаже у односу на ОпенАИ ГПТ-4, стандард у индустрији за нове ЛЛМ. Гоогле-ови подаци сугеришу да, иако ГПТ-4 може да буде одличан у задацима здравог разума, Гемини Ултра има предност у скоро свим другим областима.

Гемини ВС ГПТ-4

Гемини ВС ГПТ-4

Горња табела бенчмаркинга показује импресивне перформансе Гоогле Гемини АИ у различитим задацима. Значајно је да је Гемини Ултра постигао изванредне резултате у ММЛУ мерилу са тачношћу од 90.04%, што указује на његово супериорно разумевање питања са вишеструким избором за 57 субјеката.

У ГСМ8К, који процењује математичка питања за основну школу, Гемини Ултра постиже 94.4%, показујући своје напредне вештине аритметичке обраде. У референтним вредностима кодирања, Гемини Ултра је постигао резултат од 74.4% у генерисању кода ХуманЕвал за Питхон, што указује на његово снажно разумевање програмског језика.

Репер ДРОП, који тестира разумевање прочитаног, показује да Гемини Ултра поново води са резултатом од 82.4%. У међувремену, у здраворазумском тесту расуђивања, ХеллаСваг, Гемини Ултра ради изванредно, иако не премашује изузетно висок стандард који је поставио ГПТ-4.

Zakljucak

Јединствена архитектура Геминија, коју покреће Гоогле-ова најсавременија технологија, позиционира га као значајног играча у арени вештачке интелигенције, изазивајући постојеће стандарде које постављају модели као што је ГПТ-4. Његове верзије — Ултра, Про и Нано — свака задовољава специфичне потребе, од сложених задатака расуђивања до ефикасних апликација на уређају, показујући Гоогле-ову посвећеност томе да напредну вештачку интелигенцију учини приступачном на различитим платформама и уређајима.

Интеграција Гемини-а у Гоогле-ов екосистем, од Барда до Гоогле Цлоуд Вертек-а, наглашава његов потенцијал да побољша корисничко искуство у читавом спектру услуга. Обећава не само да ће побољшати постојеће апликације већ и отворити нове путеве за решења вођена вештачком интелигенцијом, било да се ради о персонализованој помоћи, креативним подухватима или пословној аналитици.

Док гледамо унапред, континуирани напредак у моделима вештачке интелигенције као што је Гемини наглашава важност сталног истраживања и развоја. Изазови обуке тако софистицираних модела и обезбеђивање њихове етичке и одговорне употребе остају у првом плану дискусије.

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.