кочан Mini-Gemini: Извличане на потенциала на мултимодални визуални езикови модели – Unite.AI
Свържете се с нас

Изкуствен интелект

Mini-Gemini: Извличане на потенциала на мултимодални визуални езикови модели

mm

Публикуван

 on

Mini-Gemini: Извличане на потенциала на мултимодални визуални езикови модели

Напредъкът в големи езикови модели са ускорили значително развитието на обработка на естествен език, или НЛП. Въвеждането на трансформаторната рамка се оказа крайъгълен камък, улесняващ разработването на нова вълна от езикови модели, включително OPT и BERT, които показват задълбочено лингвистично разбиране. Освен това, създаването на GPT или Generative Pre-trained Transformer модели въведе нова парадигма с авторегресивно моделиране и създаде стабилен метод за прогнозиране и генериране на език. Появата на езикови модели като GPT-4, ChatGPT, Mixtral, LLaMA и други допълнително подхранва бързата еволюция, като всеки модел демонстрира подобрена производителност при задачи, включващи сложна езикова обработка. Сред съществуващите методи настройката на инструкции се очертава като ключова техника за прецизиране на изхода на предварително обучени големи езикови модели, а интегрирането на тези модели със специфични инструменти за визуални задачи подчерта тяхната адаптивност и отвори врати за бъдещи приложения. Те се простират далеч отвъд традиционната текстово-базирана обработка на LLMs, за да включват мултимодални взаимодействия.

Освен това, сближаването на моделите за обработка на естествен език и компютърно зрение доведе до VLMs или Vision Language Models, които съчетават лингвистични и визуални модели за постигане на междумодално разбиране и възможности за разсъждение. Интегрирането и появата на визуални и лингвистични модели изиграха решаваща роля в напредъка на задачите, които изискват както езикова обработка, така и визуално разбиране. Появата на революционни модели като CLIP допълнително преодоля пропастта между визуалните задачи и езиковите модели, демонстрирайки осъществимостта и практичността на кросмодалните приложения. По-нови рамки като LLaMA и BLIP използват персонализирани данни за инструкции, за да разработят ефективни стратегии, които демонстрират мощните възможности на модела. Освен това, комбинирането на големи езикови модели с изходни изображения е фокусът на последните мултимодални изследвания, като последните методи са в състояние да заобиколят директното генериране чрез използване на подхода за извличане на изображения за създаване на изходни изображения и преплитащи се текстове.

Като се има предвид това, и въпреки бързия напредък в моделите на визуален език, улесняващ основни разсъждения и визуален диалог, все още съществува значителна разлика в производителността между усъвършенствани модели като GPT-4 и модели на визуален език. Mini-Gemini е опит да се стесни разликата, която съществува между моделите на визуални езици и по-усъвършенстваните модели чрез извличане на потенциала на VLM за по-добра производителност от три аспекта: генериране, управлявано от VLM, висококачествени данни и визуални токени с висока разделителна способност. За да подобри визуалните токени, рамката Mini-Gemini предлага да се използва допълнителен визуален енкодер за прецизиране с висока разделителна способност, без да се увеличава броят на визуалните токени. Рамката Mini-Gemini допълнително изгражда висококачествен набор от данни в опит да насърчи прецизното разбиране на изображения и генериране, базирано на разсъждения. Като цяло рамката Mini-Gemini се опитва да изкопае потенциала на визуалните езикови модели и има за цел да даде възможност на съществуващите рамки едновременно с разсъждения, разбиране и генеративни възможности. Тази статия има за цел да покрие рамката Mini-Gemini в дълбочина и ние изследваме механизма, методологията, архитектурата на рамката заедно с нейното сравнение с най-съвременните рамки. Така че да започваме. 

Mini-Gemini: Ускоряване на мултимодални VLM

През годините големите езикови модели се развиха и сега те могат да се похвалят със забележителни мултимодални възможности и се превръщат в съществена част от настоящите модели на визуални езици. Съществува обаче празнина между мултимодалното представяне на големите езикови модели и визуалните езикови модели с последните изследвания, които търсят начини за комбиниране на визията с големи езикови модели, използвайки изображения и видеоклипове. За самите зрителни задачи, разделителната способност на изображението е решаващ елемент за изрично въпреки заобикалящата среда с минимални зрителни халюцинации. За да преодолеят празнината, изследователите разработват модели за подобряване на визуалното разбиране в настоящето визуални езикови модели, а два от най-често срещаните подходи са: увеличаване на разделителната способност и увеличаване на броя на визуалните токени. Въпреки че увеличаването на броя на визуалните токени с изображения с по-висока разделителна способност подобрява визуалното разбиране, усилването често е придружено с повишени изчислителни изисквания и свързаните с тях разходи, особено при обработка на множество изображения. Освен това, възможностите на съществуващите модели, качеството на съществуващите данни и приложимостта остават неадекватни за ускорен процес на разработка, оставяйки изследователите с въпроса, „как да се ускори разработването на визуални езикови модели с приемливи разходи"?

Рамката Mini-Gemini е опит да се отговори на въпроса, тъй като се опитва да изследва потенциала на визуалните езикови модели от три аспекта: VLM-насочвано генериране или разширени приложения, висококачествени данни и визуални токени с висока разделителна способност. Първо, рамката Mini-Gemini прилага ConvNet архитектура за ефективно генериране на кандидати с по-висока разделителна способност, подобрявайки визуалните детайли, като същевременно поддържа броя на визуалните токени за големия езиков модел. Рамката Mini-Gemini обединява публично достъпни висококачествени набори от данни в опит да подобри качеството на данните и интегрира тези подобрения с най-съвременните генеративни и големи езикови модели с опит да подобри производителността на VLM и да подобри потребителското изживяване. Многостранната стратегия, приложена от рамката Mini-Gemini, му позволява да изследва скритите възможности на визуалните езикови модели и постига значителен напредък с очевидни ограничения на ресурсите. 

Като цяло рамката Mini-Gemini използва всякаква към всякаква парадигма, тъй като е в състояние да обработва както текст, така и изображения като вход и изход. По-специално, рамката Mini-Gemini въвежда ефективен тръбопровод за подобряване на визуални токени за входни изображения и включва система с двоен енкодер, състояща се от двойни енкодери: първият енкодер е за изображения с висока разделителна способност, докато вторият енкодер е за изображения с ниска разделителна способност качествено визуално вграждане. По време на извод енкодерите работят в механизъм за внимание, където енкодерът с ниска разделителна способност генерира визуални заявки, докато енкодерът с висока разделителна способност предоставя ключ и стойности за справка. За да повиши качеството на данните, рамката Mini-Gemini събира и произвежда повече данни въз основа на обществени ресурси, включително инструкции, ориентирани към задачите, данни, свързани с генерирането, и отговори с висока разделителна способност, като увеличеното количество и подобреното качество подобряват цялостната производителност и възможностите на модела. Освен това рамката Mini-Gemini поддържа едновременно генериране на текст и изображения в резултат на интегрирането на визуалния езиков модел с усъвършенствани генеративни модели. 

Мини-Близнаци: Методология и архитектура

В основата си рамката Mini-Gemini е концептуално проста и се състои от три компонента. 

  1. Рамката използва енкодери с двойно виждане, за да осигури визуални вграждания с ниска разделителна способност и кандидати с висока разделителна способност. 
  2. Рамката предлага внедряване на копаене на информация за корекции за извършване на копаене на ниво корекция между визуални заявки с ниска разделителна способност и региони с висока разделителна способност. 
  3. Рамката Mini-Gemini използва голям езиков модел, за да обедини текст с изображения както за генериране, така и за разбиране едновременно. 

Енкодери с двойно виждане

Рамката Mini-Gemini може да обработва входове както на текст, така и на изображения, с опцията да ги обработва поотделно или в комбинация. Както е показано на следващото изображение, рамката Mini-Gemini стартира процеса, като използва билинейна интерполация, за да генерира изображение с ниска разделителна способност от съответното изображение с висока разделителна способност. 

След това рамката обработва тези изображения и ги кодира в мулти-мрежово визуално вграждане в два паралелни потока от изображения. По-конкретно, рамката Mini-Gemini поддържа традиционния тръбопровод за потоци с ниска разделителна способност и използва предварително обучен CLIP Visual Transformer за кодиране на визуални вграждания, улеснявайки модела да запази дългосрочната връзка между визуални пачове за последващи взаимодействия в голям език модели. За потоците с висока разделителна способност рамката Mini-Gemini приема базирания на CNN или Convolution Neural Networks енкодер за адаптивна и ефективна обработка на изображения с висока разделителна способност. 

Копаене на информация за корекции

С енкодерите с двойна визия, генериращи LR вграждания и HR функции, рамката Mini-Gemini предлага да се приложи извличане на информация за корекции с цел разширяване на потенциала на визуалните езикови модели с подобрени визуални токени. За да поддържа броя на визуалните токени за ефективност в големите езикови модели, рамката Mini-Gemini приема визуалните вграждания с ниска разделителна способност като заявка и има за цел да извлече подходящи визуални подсказки от кандидатите за HR функции, като рамката приема Карта на характеристиките на човешките ресурси като ключ и стойност.

Както е показано на горното изображение, формулата капсулира процеса на прецизиране и синтезиране на визуални сигнали, което води до генериране на усъвършенствани визуални токени за последваща обработка на голям езиков модел. Процесът гарантира, че рамката е в състояние да ограничи добива за всяка заявка до съответния подрегион в картата на функциите на HR с броя на функциите по пиксели, което води до подобрена ефективност. Благодарение на този дизайн рамката Mini-Gemini е в състояние да извлече подробности за функциите на HR, без да увеличава броя на визуалните токени, и поддържа баланс между изчислителната осъществимост и богатството на детайлите. 

Генериране на текст и изображения

Рамката Mini-Gemini обединява визуалните токени и входните текстови токени като вход към големите езикови модели за автоматично регресивно генериране. За разлика от традиционните модели на визуални езици, рамката Mini-Gemini поддържа генериране само на текст, както и на текст-изображение като вход и изход, т.е. всяко заключение, и това е резултат от тези изключителни възможности за разбиране и разсъждение на изображение-текст, Mini-Gemini е в състояние да генерира висококачествени изображения. За разлика от скорошните работи, които се фокусират върху празнината в домейна между текстовите вграждания на моделите за генериране и големите езикови модели, рамката Mini-Gemini се опитва да оптимизира празнината в областта на езиковите подкани, като превежда инструкциите на потребителя във висококачествени подкани, които създават изображения, свързани с контекста в модели на латентна дифузия. Освен това, за по-добро разбиране на фината настройка на инструкциите и кръстосаното подравняване на модалностите, рамката Mini-Gemini събира проби от публично достъпни висококачествени набори от данни и използва турбо рамката GPT-4 за по-нататъшно изграждане на 13K инструкции, следващи набор от данни, за да поддържа генерирането на изображения. 

Мини-Близнаци: Експерименти и резултати

За да се оцени неговата производителност, рамката Mini-Gemini се инстанцира с предварително обучена рамка ConvNext-L за енкодера за HR vision и с предварително обучен CLIP Трансформатор на зрението за LR vision енкодер. За да се осигури ефективност на обучението, рамката Mini-Gemini поддържа двата визуални енкодера фиксирани и оптимизира проекторите за извличане на информация за корекции на всички етапи и оптимизира големия езиков модел по време на самия етап на настройка на инструкциите. 

Следващата таблица сравнява производителността на рамката Mini-Gemini спрямо най-съвременните модели в различни настройки и също така взема под внимание частните модели. Както може да се види, Mini-Gemini превъзхожда съществуващите рамки в широк диапазон от LLMs последователно при нормална резолюция и демонстрира превъзходна производителност, когато е конфигуриран с Gemma-2B в категорията на ефективните модели. Освен това, когато се използват по-големи големи езикови модели, мащабируемостта на рамката Mini-Gemini е очевидна. 

За да се оцени неговото представяне при висока разделителна способност и разширени визуални токени, експериментите се извършват с входен размер от 672 за LR визуалния енкодер и 1536 за визуалния енкодер. Както бе споменато по-рано, основната цел на HR визуалния енкодер е да предлага информация за кандидат с висока разделителна способност. Както може да се види, рамката Mini-Gemini осигурява превъзходна производителност в сравнение с най-съвременните рамки. 

Освен това, за да оценят способността за визуално разбиране на рамката Mini-Gemini в реални настройки, разработчиците прилагат модела към различни задачи за разсъждение и разбиране, както е показано на следното изображение. Както може да се види, рамката Mini-Gemini е в състояние да реши широк спектър от сложни задачи благодарение на внедряването на инфо копаене на корекции и висококачествени данни. Но това, което е по-впечатляващо, е фактът, че рамката Mini-Gemini демонстрира силно допълнение към детайлите, което се простира отвъд простото разпознаване и описва сложните елементи сложно. 

Следващата фигура предоставя цялостна оценка на генеративните способности на рамката Mini-Gemini. 

В сравнение с последните модели като ChatIllusion и AnyGPT, рамката Mini-Gemini демонстрира по-силни мултимодални способности за разбиране, което й позволява да генерира текст към изображение надписи, които се привеждат в съответствие с инструкциите за въвеждане по-добре и водят до отговорите на изображение към текст с по-силно концептуално сходство. Това, което е по-впечатляващо, е фактът, че рамката Mini-Gemini демонстрира забележителна компетентност в генерирането на висококачествено съдържание, използвайки многомоделни човешки инструкции само с данни за текстово обучение, способност, която илюстрира стабилната семантична интерпретация на Mini-Gemini и уменията за подравняване на изображение-текст. 

Заключителни мисли

В тази статия говорихме за Mini-Gemini, мощна и рационализирана рамка за многомодални езикови модели на визия. Основната цел на рамката Mini-Gemini е да използва латентните възможности на визуалните езикови модели, като използва висококачествени данни, стратегически дизайн на рамката и разширен функционален обхват. Mini-Gemini е опит да се стесни разликата, която съществува между моделите на визуални езици и по-усъвършенстваните модели чрез извличане на потенциала на VLM за по-добра производителност от три аспекта: генериране, управлявано от VLM, висококачествени данни и визуални токени с висока разделителна способност. За да подобри визуалните токени, рамката Mini-Gemini предлага да се използва допълнителен визуален енкодер за прецизиране с висока разделителна способност, без да се увеличава броят на визуалните токени. Рамката Mini-Gemini допълнително изгражда висококачествен набор от данни в опит да насърчи прецизното разбиране на изображения и генериране, базирано на разсъждения. Като цяло рамката Mini-Gemini се опитва да изкопае потенциала на визуалните езикови модели и има за цел да даде възможност на съществуващите рамки едновременно с разсъждения, разбиране и генеративни възможности.

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.