никулец Мини-Близнаци: ископување на потенцијалот на моделите на визионен јазик со повеќе модалитет - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Мини-Близнаци: Откривање на потенцијалот на моделите на јазични визии со повеќе модалитети

mm

Објавено

 on

Мини-Близнаци: Откривање на потенцијалот на моделите на јазични визии со повеќе модалитети

Напредокот во големи јазични модели значително го забрзаа развојот на обработка на природен јазик, или НЛП. Воведувањето на рамката на трансформаторот се покажа како пресвртница, што го олесни развојот на нов бран јазични модели, вклучувајќи ги OPT и BERT, кои покажуваат длабоко лингвистичко разбирање. Понатаму, почетокот на GPT, или генеративните претходно обучени модели на трансформатори, воведе нова парадигма со авторегресивно моделирање и воспостави робустен метод за јазично предвидување и генерирање. Доаѓањето на јазичните модели како GPT-4, ChatGPT, Mixtral, LLaMA и други дополнително ја поттикна брзата еволуција, при што секој модел покажува подобрени перформанси во задачите што вклучуваат сложена јазична обработка. Помеѓу постојните методи, подесувањето на инструкциите се појави како клучна техника за рафинирање на резултатите од претходно обучените големи јазични модели, а интеграцијата на овие модели со специфични алатки за визуелни задачи ја истакна нивната приспособливост и ги отвори вратите за идните апликации. Тие се протегаат многу подалеку од традиционалната обработка на LLM базирана на текст за да вклучуваат мултимодални интеракции.

Понатаму, конвергенцијата на моделите за обработка на природен јазик и компјутерска визија доведе до појава на VLM, или Vision Language Models, кои ги комбинираат лингвистичките и визиските модели за да постигнат вкрстено модално разбирање и способности за расудување. Интеграцијата и доаѓањето на визуелните и лингвистичките модели одиграа клучна улога во унапредувањето на задачите кои бараат и јазична обработка и визуелно разбирање. Појавата на револуционерни модели како CLIP дополнително го премости јазот помеѓу задачите за визија и јазичните модели, демонстрирајќи ја изводливоста и практичноста на меѓумодалните апликации. Поновите рамки како LLaMA и BLIP користат приспособени податоци за инструкции за да осмислат ефикасни стратегии кои ги демонстрираат моќните способности на моделот. Дополнително, комбинирањето на големи јазични модели со излези на слики е во фокусот на неодамнешното мултимодално истражување, при што неодамнешните методи можат да го заобиколат директното генерирање со користење на пристапот за пронаоѓање слики за производство на излези на слики и испреплетени текстови.

Со тоа што е кажано, и покрај брзиот напредок во моделите на визуелни јазици кои го олеснуваат основното расудување и визуелниот дијалог, сè уште постои значителен јаз во изведбата помеѓу напредните модели како GPT-4 и моделите на визуелен јазик. Mini-Gemini е обид да се намали јазот што постои помеѓу моделите на визуелен јазик и понапредните модели со искористување на потенцијалот на VLM за подобри перформанси од три аспекти: генерирање управувано од VLM, податоци со висок квалитет и визуелни токени со висока резолуција. За подобрување на визуелните токени, рамката Mini-Gemini предлага да се користи дополнителен визуелен енкодер за префинетост со висока резолуција без зголемување на бројот на визуелни токени. Рамката Mini-Gemini понатаму конструира висококвалитетна база на податоци во обид да промовира прецизно разбирање на сликите и генерирање базирано на расудување. Севкупно, рамката Mini-Gemini се обидува да го минира потенцијалот на моделите на јазикот на видот и има за цел да ги поттикне постоечките рамки со расудување на слики, разбирање и генеративни способности истовремено. Оваа статија има за цел длабински да ја покрие рамката Mini-Gemini, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки. Па ајде да започнеме. 

Мини-Близнаци: забрзувачки VLM со мулти-модалитет

Со текот на годините, големите јазични модели еволуираа, и тие сега се фалат со извонредни мулти-модални способности и стануваат суштински дел од тековните модели на визуелни јазици. Сепак, постои јаз помеѓу мултимодалните перформанси на големите јазични модели и моделите на визуелен јазик со неодамнешното истражување кое бара начини да се комбинира видот со големи јазични модели користејќи слики и видеа. За самите задачи за вид, резолуцијата на сликата е клучен елемент за експлицитно и покрај околната средина со минимални визуелни халуцинации. За да се премости јазот, истражувачите развиваат модели за подобрување на визуелното разбирање на струјата модели на визиски јазик, а два од најчестите пристапи се: зголемување на резолуцијата и зголемување на бројот на визуелни токени. Иако зголемувањето на бројот на визуелни токени со слики со поголема резолуција го подобрува визуелното разбирање, засилувањето често е придружено со зголемени пресметковни барања и поврзани трошоци, особено при обработка на повеќе слики. Понатаму, можностите на постоечките модели, квалитетот на постоечките податоци и применливоста остануваат несоодветни за забрзан развојен процес, оставајќи ги истражувачите со прашањето:како да се забрза развојот на моделите на јазикот на видот со прифатливи трошоци"?

Рамката Mini-Gemini е обид да се одговори на прашањето додека се обидува да го истражи потенцијалот на моделите на визуелен јазик од три аспекти: генерирање или проширени апликации управувано од VLM, податоци со висок квалитет и визуелни токени со висока резолуција. Прво, рамката Mini-Gemini имплементира архитектура ConvNet за ефикасно да генерира кандидати со повисока резолуција, подобрувајќи ги визуелните детали додека ги одржува бројот на визуелни токени за големиот јазичен модел. Рамката Mini-Gemini ги спојува јавно достапните висококвалитетни бази на податоци во обид да го подобри квалитетот на податоците и ги интегрира овие подобрувања со најсовремените генеративни и големи јазични модели со обид да се подобрат перформансите на VLM и да се подобрат корисничкото искуство. Повеќеслојната стратегија имплементирана од рамката Mini-Gemini му овозможува да ги истражи скриените способности на моделите на јазикот на видот и постигнува значителен напредок со очигледни ограничувања на ресурсите. 

Генерално, рамката Mini-Gemini користи која било парадигма бидејќи е способна да ракува и со текст и слики како влез и излез. Конкретно, рамката Mini-Gemini воведува ефикасен цевковод за подобрување на визуелните токени за влезни слики и има систем со двоен енкодер кој се состои од двојни енкодери: првиот енкодер е за слики со висока резолуција, додека вториот енкодер е за слики со ниска квалитетно визуелно вградување. За време на заклучувањето, енкодерите работат во механизам за внимание, каде што енкодерот со ниска резолуција генерира визуелни прашања, додека енкодерот со висока резолуција обезбедува клуч и вредности за референца. За да го зголеми квалитетот на податоците, рамката Mini-Gemini собира и произведува повеќе податоци засновани на јавни ресурси, вклучувајќи инструкции ориентирани кон задачи, податоци поврзани со генерирање и одговори со висока резолуција, при што зголемениот износ и подобрениот квалитет ги подобрува севкупните перформанси и можностите на моделот. Понатаму, рамката Mini-Gemini поддржува истовремено генерирање на текст и слики како резултат на интеграцијата на моделот на јазикот на видот со напредните генеративни модели. 

Мини-Близнаци: Методологија и архитектура

Во неговото јадро, рамката Mini-Gemini е концептуално едноставна и се состои од три компоненти. 

  1. Рамката користи двојни шифри за да обезбеди визуелни вградувања со ниска резолуција и кандидати со висока резолуција. 
  2. Рамката предлага да се имплементира рударство за информации за закрпи за да се спроведе рударство на ниво на закрпи помеѓу визуелни прашања со ниска резолуција и региони со висока резолуција. 
  3. Рамката Mini-Gemini користи голем јазичен модел за да го спои текстот со слики и за генерирање и за разбирање истовремено. 

Кодери со двојна визија

Рамката Mini-Gemini може да обработува и внесување текст и слика, со опција да се справи со нив или поединечно или во комбинација. Како што е прикажано на следната слика, рамката Mini-Gemini го започнува процесот со примена на биланеарна интерполација за да генерира слика со ниска резолуција од нејзината соодветна слика со висока резолуција. 

Рамката потоа ги обработува овие слики и ги кодира во визуелно вградување со повеќе мрежи во два паралелни текови на слики. Поконкретно, рамката Mini-Gemini го одржува традиционалниот цевковод за текови со ниска резолуција и користи визуелен трансформатор обучен CLIP за кодирање на визуелните вградувања, олеснувајќи го моделот да ја зачува врската на долг дострел помеѓу визуелните закрпи за последователни интеракции на голем јазик. модели. За тековите со висока резолуција, рамката Mini-Gemini го усвојува енкодерот базиран на CNN или Convolution Neural Networks за адаптивна и ефикасна обработка на слики со висока резолуција. 

Закрпи Инфо Рударство

Со двојните шифри за вид што ги генерираат LR вградувањата и карактеристиките на HR, рамката Mini-Gemini предлага да се имплементира закрпи за ископување информации со цел да се прошири потенцијалот на моделите на визуелен јазик со подобрени визуелни токени. Со цел да се одржи бројот на визуелни токени за ефикасност во големите јазични модели, рамката Mini-Gemini ги зема визуелните вградувања со ниска резолуција како барање и има за цел да ги врати релевантните визуелни знаци од кандидатите за функции за човечки ресурси, при што рамката ги зема Карта на карактеристики на човечки ресурси како клуч и вредност.

Како што е прикажано на горната слика, формулата го опфаќа процесот на рафинирање и синтетизирање визуелни знаци, што доведува до генерирање напредни визуелни токени за последователна обработка на големи јазични модели. Процесот осигурува дека рамката е во состојба да го ограничи рударството за секое барање до неговиот соодветен под-регион во мапата на карактеристики за човечки ресурси со бројот на карактеристики според пиксели, што резултира со зголемена ефикасност. Благодарение на овој дизајн, рамката Mini-Gemini може да ги извлече деталите за карактеристиките на HR без да го зголеми бројот на визуелни токени и одржува рамнотежа помеѓу пресметковната изводливост и богатството на детали. 

Генерирање на текст и слика

Рамката Mini-Gemini ги поврзува визуелните токени и токените за внесување текст како влез во големите јазични модели за авто-регресивно генерирање. За разлика од традиционалните модели на визиски јазик, рамката Mini-Gemini поддржува генерирање само текст, како и текст-слика како влез и излез, т.е. кој било заклучок, и тоа е резултат на овие извонредни способности за разбирање и расудување слика-текст, Mini-Gemini е во состојба да генерира висококвалитетни слики. За разлика од неодамнешните дела кои се фокусираат на јазот во доменот помеѓу вградувањето текст на моделите на генерација и големите јазични модели, рамката Mini-Gemini се обидува да го оптимизира јазот во доменот на јазични барања со преведување на корисничките инструкции во висококвалитетни инструкции кои произведуваат слики соодветни на контекстот. во моделите на латентна дифузија. Понатаму, за подобро разбирање на дотерувањето на инструкциите и вкрстеното порамнување на модалитетите, рамката Mini-Gemini собира примероци од јавно достапни висококвалитетни збирки на податоци и ја користи GPT-4 турбо рамката за понатамошно конструирање на 13K инструкција по база на податоци за поддршка на генерирање слики. 

Мини-Близнаци: Експерименти и резултати

За да се процени неговата изведба, рамката Mini-Gemini е инстанцирана со претходно обучената рамка ConvNext-L за енкодерот за HR vision и со претходно обучен CLIP Визија трансформатор за LR визија енкодер. За да се обезбеди ефикасност на обуката, рамката Mini-Gemini ги одржува фиксирани двата шифри за видот и ги оптимизира проекторите за ископување информации за закрпи во сите фази и го оптимизира големиот јазичен модел за време на самата фаза на подесување на инструкциите. 

Следната табела ги споредува перформансите на рамката Mini-Gemini со најсовремените модели на различни поставки, а исто така ги зема предвид и приватните модели. Како што може да се забележи, Mini-Gemini ги надминува постоечките рамки во широк опсег на LLM постојано при нормална резолуција и покажува супериорни перформанси кога е конфигуриран со Gemma-2B во категоријата ефикасни модели. Понатаму, кога се користат поголеми големи јазични модели, евидентна е приспособливоста на рамката Mini-Gemini. 

За да се оценат неговите перформанси на висока резолуција и проширени визуелни токени, експериментите се изведуваат со влезна големина од 672 за шифрирањето на видот LR и 1536 за визуелниот енкодер. Како што споменавме претходно, главната цел на визуелниот енкодер за човечки ресурси е да понуди информации за кандидатите со висока резолуција. Како што може да се забележи, рамката Mini-Gemini обезбедува супериорни перформанси во споредба со најсовремените рамки. 

Понатаму, за да се процени моќта за визуелно разбирање на рамката Mini-Gemini во реални поставки, програмерите го применуваат моделот на различни задачи за расудување и разбирање како што е прикажано на следната слика. Како што може да се забележи, рамката Mini-Gemini е способна да реши широк спектар на сложени задачи благодарение на имплементацијата на рударството за информации за закрпи и висококвалитетните податоци. Но, она што е поимпресивно е фактот дека рамката Mini-Gemini демонстрира силно дополнување на деталите што се протега надвор од само моќта за препознавање и сложено ги опишува сложените елементи. 

Следната слика дава сеопфатна евалуација на генеративните способности на рамката Mini-Gemini. 

Кога ќе се спореди со неодамнешните модели како ChatIllusion и AnyGPT, рамката Mini-Gemini покажува посилни мултимодални способности за разбирање, овозможувајќи ѝ да генерира текст на слика титли кои подобро се усогласуваат со инструкциите за внесување и резултираат со одговори од слика во текст со посилна концептуална сличност. Она што е поимпресивно е фактот што рамката Mini-Gemini демонстрира извонредно владеење во генерирање висококвалитетна содржина користејќи повеќе-моделски човечки инструкции само со податоци за обука на текст, способност што ја илустрира робусната семантичка интерпретација и вештините за усогласување слика-текст на Mini-Gemini. 

Последни мисли

Во оваа статија зборувавме за Mini-Gemini, моќна и рационализирана рамка за модели на јазичен јазик со повеќе модалитети. Примарната цел на рамката Mini-Gemini е да ги искористи латентните способности на моделите на визуелни јазици користејќи висококвалитетни податоци, стратешки дизајн на рамката и проширен функционален опсег. Mini-Gemini е обид да се намали јазот што постои помеѓу моделите на визуелен јазик и понапредните модели со искористување на потенцијалот на VLM за подобри перформанси од три аспекти: генерирање управувано од VLM, податоци со висок квалитет и визуелни токени со висока резолуција. За подобрување на визуелните токени, рамката Mini-Gemini предлага да се користи дополнителен визуелен енкодер за префинетост со висока резолуција без зголемување на бројот на визуелни токени. Рамката Mini-Gemini понатаму конструира висококвалитетна база на податоци во обид да промовира прецизно разбирање на сликите и генерирање базирано на расудување. Севкупно, рамката Mini-Gemini се обидува да го минира потенцијалот на моделите на јазикот на видот и има за цел да ги поттикне постоечките рамки со расудување на слики, разбирање и генеративни способности истовремено.

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.