кочан Насочване на базирано на инструкции редактиране на изображения чрез мултимодални големи езикови модели - Unite.AI
Свържете се с нас

Изкуствен интелект

Насочване на базирано на инструкции редактиране на изображения чрез мултимодални големи езикови модели

mm

Публикуван

 on

РЪКОВОДСТВО ЗА РЕДАКТИРАНЕ НА ИЗОБРАЖЕНИЕ, БАЗИРАНО НА ИНСТРУКЦИИ ЧРЕЗ МУЛТИМОДАЛНИ МОДЕЛИ НА ГОЛЕМИ ЕЗИЦИ

Инструментите за визуален дизайн и визуалните езикови модели имат широко разпространени приложения в мултимедийната индустрия. Въпреки значителния напредък през последните години, стабилното разбиране на тези инструменти все още е необходимо за тяхната работа. За да подобри достъпността и контрола, мултимедийната индустрия все повече възприема техники за редактиране на изображения, ръководени от текст или базирани на инструкции. Тези техники използват команди на естествен език вместо традиционни регионални маски или сложни описания, което позволява по-гъвкаво и контролирано манипулиране на изображения. Въпреки това методите, базирани на инструкции, често предоставят кратки насоки, които могат да бъдат предизвикателство за съществуващите модели за пълно улавяне и изпълнение. Освен това дифузионните модели, известни със способността си да създават реалистични изображения, са много търсени в сектора за редактиране на изображения.

Освен това, Мултимодални големи езикови модели (MLLMs) показаха впечатляващо представяне при задачи, включващи генериране на визуално осъзнат отговор и кросмодално разбиране. MLLM Guided Image Editing (MGIE) е проучване, вдъхновено от MLLMs, което оценява техните възможности и анализира как те поддържат редактиране чрез текст или ръководени инструкции. Този подход включва обучение за предоставяне на изрични насоки и извличане на изразителни инструкции. Моделът за редактиране на MGIE разбира визуална информация и изпълнява редакции чрез обучение от край до край. В тази статия ще се задълбочим в MGIE, оценявайки неговото въздействие върху глобалната оптимизация на изображението, модификациите в стил Photoshop и локалното редактиране. Ще обсъдим също значението на MGIE в задачите за редактиране на изображения, базирани на инструкции, които разчитат на изразителни инструкции. Да започнем нашето изследване.

MLLM управлявано редактиране на изображения или MGIE: Въведение

Мултимодалните големи езикови модели и дифузионните модели са две от най-широко използваните AI и ML рамки в момента поради техните забележителни генеративни възможности. От една страна, имате дифузионни модели, най-известни с това, че създават изключително реалистични и визуално привлекателни изображения, докато от друга страна, имате мултимодални големи езикови модели, известни с изключителната си мощ в генерирането на голямо разнообразие от съдържание, включително текст, език, реч и изображения/видеоклипове. 

Дифузионните модели разменят латентните крос-модални карти, за да извършат визуална манипулация, която отразява промяната на входния надпис на целта, и те също могат да използват направлявана маска, за да редактират конкретен регион на изображението. Но основната причина, поради която моделите Diffusion се използват широко за мултимедийни приложения, е, че вместо да разчитат на сложни описания или регионални маски, моделите Diffusion използват базирани на инструкции подходи за редактиране, които позволяват на потребителите да изразят как да редактират изображението директно чрез използване на текстови инструкции или команди . Продължавайки напред, големите езикови модели не се нуждаят от представяне, тъй като те демонстрираха значителен напредък в набор от различни езикови задачи, включително обобщаване на текст, машинен превод, генериране на текст и отговаряне на въпроси. LLM обикновено се обучават на голямо и разнообразно количество данни за обучение, което ги оборудва с визуална креативност и знания, което им позволява да изпълняват и няколко визуални езикови задачи. Надграждането на LLM, MLLM или мултимодални големи езикови модели може да използва изображения като естествени входове и да предоставя подходящи визуално осъзнати отговори. 

Като се има предвид това, въпреки че дифузионните модели и MLLM рамките са широко използвани за задачи за редактиране на изображения, съществуват някои проблеми с насоките с текстови инструкции, които възпрепятстват цялостната производителност, което води до разработването на MGIE или MLLM направлявано редактиране на изображения, задвижван от AI рамка, състояща се от модел на дифузия и модел MLLM, както е показано на следното изображение. 

В рамките на архитектурата MGIE дифузионният модел е обучен от край до край, за да извършва редактиране на изображения с латентно въображение за планираната цел, докато рамката MLLM се научава да предвижда точни изразителни инструкции. Заедно дифузионният модел и рамката MLLM се възползват от присъщото визуално извеждане, което му позволява да адресира двусмислени човешки команди, което води до реалистично редактиране на изображенията, както е показано на следното изображение. 

Рамката MGIE черпи силно вдъхновение от два съществуващи подхода: Редактиране на изображения, базирано на инструкции и големи езикови модели на Vision

Редактирането на изображения, базирано на инструкции, може значително да подобри достъпността и контролируемостта на визуалната манипулация чрез придържане към човешки команди. Има две основни рамки, използвани за базирано на инструкции редактиране на изображения: GAN рамки и дифузионни модели. GAN или Generative Adversarial Networks са способни да променят изображения, но са или ограничени до конкретни домейни, или дават нереалистични резултати. От друга страна, дифузионните модели с широкомащабно обучение могат да контролират междумодалните карти на вниманието за глобални карти, за да постигнат редактиране и трансформация на изображения. Редактирането, базирано на инструкции, работи чрез получаване на директни команди като вход, често не ограничени до регионални маски и сложни описания. Има обаче вероятност предоставените инструкции да са двусмислени или да не са достатъчно точни, за да следват инструкциите за задачи за редактиране. 

Големите езикови модели на Vision са известни със своите възможности за генериране на текст и обобщаване в различни задачи и често имат стабилно текстово разбиране и могат допълнително да създават изпълними програми или псевдо код. Тази способност на големи езикови модели позволява на MLLM да възприемат изображения и да предоставят адекватни отговори, използвайки подравняване на визуални функции с настройка на инструкции, като последните модели приемат MLLM за генериране на изображения, свързани с чата или въведения текст. Въпреки това, това, което разделя MGIE от MLLM или VLLM, е фактът, че докато последните могат да създават изображения, различни от входовете от нулата, MGIE използва способностите на MLLM за подобряване на възможностите за редактиране на изображения с извлечени инструкции. 

MGIE: Архитектура и методология

Традиционно големите езикови модели се използват за генеративни задачи за обработка на естествен език. Но откакто MLLM станаха мейнстрийм, LLM бяха упълномощени със способността да предоставят разумни отговори чрез възприемане на въведени изображения. Обикновено мултимодалният голям езиков модел се инициализира от предварително обучен LLM и съдържа визуален енкодер и адаптер за извличане на визуалните характеристики и проектирането на визуалните характеристики съответно в езикова модалност. Благодарение на това рамката MLLM е в състояние да възприема визуални входове, въпреки че изходът все още е ограничен до текст. 

Предложената рамка MGIE има за цел да разреши този проблем и да улесни MLLM да редактира входно изображение в изходно изображение въз основа на дадената текстова инструкция. За да постигне това, рамката MGIE съдържа MLLM и се обучава да извлича кратки и изрични изразителни текстови инструкции. Освен това рамката MGIE добавя специални токени за изображения в своята архитектура, за да преодолее празнината между визия и езикова модалност и приема главата за редактиране за трансформация на модалностите. Тези модалности служат като латентно визуално въображение от Мултимодалния голям езиков модел и насочват модела на разпространение за постигане на задачите за редактиране. Тогава рамката MGIE е способна да изпълнява задачи за визуално възприятие за разумно редактиране на изображения. 

Кратка експресивна инструкция

Традиционно мултимодалните големи езикови модели могат да предложат визуално свързани отговори с кръстосаното си възприятие благодарение на настройката на инструкциите и подравняването на характеристиките. За редактиране на изображения рамката MGIE използва текстова подкана като основен език за въвеждане с изображението и извлича подробно обяснение за командата за редактиране. Въпреки това, тези обяснения често могат да бъдат твърде дълги или да включват повтарящи се описания, водещи до погрешно интерпретирани намерения, принуждавайки MGIE да приложи предварително обучен обобщител, за да получи кратки разкази, позволявайки на MLLM да генерира обобщени резултати. Рамката третира кратките, но изрични насоки като експресивна инструкция и прилага загубата на кръстосана ентропия, за да обучи мултимодалния голям езиков модел, използвайки налагане на учителя.

Използването на изразителна инструкция осигурява по-конкретна идея в сравнение с текстовата инструкция, тъй като преодолява празнината за разумно редактиране на изображения, повишавайки освен това ефективността на рамката. Освен това рамката MGIE по време на периода на извод извлича сбити изразителни инструкции, вместо да произвежда дълги разкази и да разчита на външно обобщение. Благодарение на това рамката MGIE е в състояние да овладее визуалното въображение на намеренията за редактиране, но все още е ограничена до езиковата модалност. За да преодолее това препятствие, моделът MGIE добавя определен брой визуални токени след експресивната инструкция с обучаеми вграждания на думи, позволяващи на MLLM да ги генерира, използвайки своята глава на LM или езиков модел. 

Редактиране на изображения със скрито въображение

В следващата стъпка рамката MGIE приема главата за редактиране, за да трансформира инструкцията за изображение в действително визуално ръководство. Главата за редактиране е модел на последователност към последователност, който помага при картографирането на последователните визуални токени от MLLM към смисловото латентно семантично като ръководство за редактиране. За да бъдем по-конкретни, трансформацията върху вграждането на думи може да се тълкува като общо представяне във визуалната модалност и използва компонент за визуално въображение, осъзнат за екземпляра, за намеренията за редактиране. Освен това, за да ръководи редактирането на изображения с визуално въображение, рамката MGIE вгражда модел на латентна дифузия в своята архитектура, която включва вариационен автоенкодер и адресира премахващата шума дифузия в латентното пространство. Основната цел на модела на латентна дифузия е да генерира латентната цел чрез запазване на латентния вход и следване на указанията за редактиране. Процесът на дифузия добавя шум към латентната цел през редовни интервали от време и нивото на шума се увеличава с всяка времева стъпка. 

Изучаване на MGIE

Следващата фигура обобщава алгоритъма на процеса на обучение на предложената MGIE рамка. 

Както може да се види, MLLM се научава да извлича кратки изразителни инструкции, използвайки загубата на инструкции. Използвайки латентното въображение от инструкциите за входно изображение, рамката трансформира модалността на главата за редактиране и насочва модела на латентна дифузия, за да синтезира полученото изображение, и прилага загубата при редактиране за обучение на дифузия. И накрая, рамката замразява по-голямата част от тежестите, което води до ефективно за параметрите обучение от край до край. 

MGIE: Резултати и оценка

Рамката MGIE използва набора от данни IPr2Pr като основни данни за предварително обучение и съдържа над 1 милион CLIP-филтрирани данни с инструкции, извлечени от модела GPT-3, и модел Prompt-to-Prompt за синтезиране на изображенията. Освен това рамката MGIE третира рамката InsPix2Pix, изградена върху CLIP текстов енкодер с дифузионен модел като своя базова линия за базирани на инструкции задачи за редактиране на изображения. Освен това, моделът MGIE също взема предвид модел за редактиране на изображения, управляван от LLM, приет за изразителни инструкции от входове само за инструкции, но без визуално възприятие. 

Количествен анализ

Следващата фигура обобщава резултатите от редактирането при настройка за нулев изстрел, като моделите се обучават само върху набора от данни IPr2Pr. За GIER и EVR данни, включващи модификации в стил Photoshop, експресивните инструкции могат да разкрият конкретни цели вместо двусмислени команди, което позволява на резултатите от редактирането да приличат по-добре на намеренията за редактиране. 

Въпреки че както LGIE, така и MGIE се обучават на същите данни като модела InsPix2Pix, те могат да предложат подробни обяснения чрез обучение с големия езиков модел, но все пак LGIE е ограничен до една модалност. Освен това рамката MGIE може да осигури значително повишаване на производителността, тъй като има достъп до изображения и може да използва тези изображения, за да извлече изрични инструкции. 

За да оценят производителността на базирани на инструкции задачи за редактиране на изображения за конкретни цели, разработчиците прецизират няколко модела на всеки набор от данни, както е обобщено в следващата таблица. 

Както може да се види, след адаптиране на задачите за редактиране в стила на Photoshop за EVR и GIER, моделите показват подобрение в производителността. Заслужава обаче да се отбележи, че тъй като фината настройка прави експресивните инструкции също по-специфични за домейн, рамката MGIE е свидетел на масивен тласък в производителността, тъй като също така научава насоки, свързани с домейн, което позволява на дифузионния модел да демонстрира конкретни редактирани сцени от фино настроен голям езиков модел, облагодетелстващ както локалната модификация, така и локалната оптимизация. Освен това, тъй като визуално ориентираните насоки са в по-голяма степен съобразени с предвидените цели за редактиране, рамката MGIE осигурява превъзходни резултати последователно в сравнение с LGIE. 

Следващата фигура демонстрира резултата на CLIP-S във входните или наземните изображения на целта на истината и изразителните инструкции. По-високият CLIP резултат показва уместността на инструкциите с източника за редактиране и както може да се види, MGIE има по-висок CLIP резултат в сравнение с модела LGIE както във входните, така и в изходните изображения. 

Качествени резултати

Следното изображение перфектно обобщава качествения анализ на рамката MGIE. 

Както знаем, рамката на LGIE е ограничена до една модалност, поради което има прозрение, базирано на един език, и е склонна да извлича грешни или неуместни обяснения за редактиране на изображението. Въпреки това, рамката MGIE е мултимодална и с достъп до изображения, тя завършва задачите за редактиране и предоставя ясно визуално въображение, което се привежда в съответствие с целта наистина добре. 

Заключителни мисли

В тази статия говорихме за MGIE или MLLM направлявано редактиране на изображения, вдъхновено от MLLM проучване, което има за цел да оцени мултимодални големи езикови модели и да анализира как те улесняват редактирането с помощта на текст или ръководени инструкции, докато се научават как да предоставят изрични насоки чрез извличане на изразителни инструкции едновременно. Моделът за редактиране на MGIE улавя визуалната информация и извършва редактиране или манипулиране, като използва обучение от край до край. Вместо двусмислени и кратки насоки, рамката MGIE създава изрични визуални инструкции, които водят до разумно редактиране на изображения. 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.