кочан DiffSeg : Неконтролирана Zero-Shot сегментация с помощта на стабилна дифузия - Unite.AI
Свържете се с нас

Изкуствен интелект

DiffSeg : Неконтролирана Zero-Shot сегментация с помощта на стабилна дифузия

mm

Публикуван

 on

DiffSeg : Неконтролирана Zero-Shot сегментация с помощта на стабилна дифузия

Едно от основните предизвикателства в базираните на компютърно зрение модели е генерирането на висококачествени маски за сегментиране. Последните постижения в широкомащабното контролирано обучение позволиха нулева сегментация в различни стилове на изображения. Освен това обучението без надзор опрости сегментирането без необходимост от обширни пояснения. Въпреки тези разработки, изграждането на рамка за компютърно зрение, способна да сегментира всичко в настройка с нулев изстрел без анотации, остава сложна задача. Семантичната сегментация, фундаментална концепция в моделите на компютърно зрение, включва разделяне на изображение на по-малки региони с еднаква семантика. Тази техника полага основата за многобройни задачи надолу по веригата, като медицински изображения, редактиране на изображения, автономно шофиране и др.

За да се ускори разработването на модели на компютърно зрение, от решаващо значение е сегментирането на изображението да не се ограничава до фиксиран набор от данни с ограничени категории. Вместо това, той трябва да действа като универсална основна задача за различни други приложения. Въпреки това, високата цена за събиране на етикети на базата на пиксел представлява значително предизвикателство, ограничавайки напредъка на методите за нулево изстрелване и контролирано сегментиране, които не изискват анотации и нямат предварителен достъп до целта. Тази статия ще обсъди как се наслоява самовниманието стабилни дифузионни модели може да улесни създаването на модел, способен да сегментира всеки вход при нулева настройка, дори без подходящи анотации. Тези слоеве на самовнимание по своята същност разбират концепциите за обекти, научени от предварително обучен стабилен модел на дифузия.

DiffSeg: Подобрен алгоритъм за сегментиране с нулев удар

Семантичното сегментиране е процес, който разделя изображение на различни секции, като всяка секция споделя подобна семантика. Тази техника формира основата за множество задачи надолу по веригата. Традиционно задачите за компютърно зрение с нулев изстрел зависят от контролирано семантично сегментиране, използвайки големи набори от данни с анотирани и етикетирани категории. Въпреки това прилагането на неконтролирана семантична сегментация в настройка с нулев удар остава предизвикателство. Въпреки че традиционните контролирани методи са ефективни, техните разходи за етикетиране на пиксел често са непосилни, което подчертава необходимостта от разработване на неконтролирани методи за сегментиране в по-малко ограничителна настройка с нулев удар, където моделът не изисква нито анотирани данни, нито предварително познаване на данните.

За да се справи с това ограничение, DiffSeg въвежда нова стратегия за последваща обработка, като използва възможностите на рамката Stable Diffusion, за да изгради общ модел на сегментиране, способен на прехвърляне с нулева снимка върху всяко изображение. Рамките Stable Diffusion са доказали своята ефикасност при генериране на изображения с висока разделителна способност въз основа на бързи условия. За генерирани изображения тези рамки могат да произвеждат маски за сегментиране, като използват съответните текстови подкани, обикновено включващи само доминиращи обекти на преден план.

За разлика от това, DiffSeg е иновативен метод за последваща обработка, който създава маски за сегментиране чрез използване на тензори на вниманието от слоевете на самовнимание в модел на дифузия. Алгоритъмът DiffSeg се състои от три ключови компонента: итеративно обединяване на вниманието, агрегиране на вниманието и не-максимално потискане, както е илюстрирано на следното изображение.

Алгоритъмът DiffSeg запазва визуална информация в множество разделителни способности чрез агрегиране на 4D тензорите на вниманието с пространствена последователност и използване на итеративен процес на сливане чрез вземане на проби от опорни точки. Тези котви служат като стартова площадка за сливане на маски за внимание със същите котви на обекти, които в крайна сметка се абсорбират. Рамката DiffSeg контролира процеса на сливане с помощта на KL метод на дивергенция за измерване на приликата между две карти на вниманието. 

В сравнение с базираните на клъстери методи за неконтролирано сегментиране, разработчиците не трябва да уточняват броя на клъстерите предварително в алгоритъма DiffSeg и дори без никакви предварителни познания, алгоритъмът DiffSeg може да произвежда сегментиране, без да използва допълнителни ресурси. Като цяло алгоритъмът на DiffSeg е „Нов метод за сегментиране без надзор и нулев удар, който използва предварително обучен модел на стабилна дифузия и може да сегментира изображения без допълнителни ресурси или предварителни познания.

DiffSeg: Основни концепции

DiffSeg е нов алгоритъм, който се основава на знанията на дифузионните модели, неконтролираната сегментация и нулевата сегментация. 

Дифузионни модели

Алгоритъмът DiffSeg се основава на наученото от предварително обучени дифузионни модели. Дифузионните модели са една от най-популярните генеративни рамки за модели на компютърно зрение и той научава процеса на дифузия напред и назад от образец на изотропен шум на Гаус, за да генерира изображение. Стабилната дифузия е най-популярният вариант на дифузионни модели и се използва за изпълнение на широк спектър от задачи, включително контролирано сегментиране, класификация с нулев изстрел, съпоставяне на семантично съответствие, сегментиране с ефективно етикетиране и сегментиране с отворен речник. Въпреки това, единственият проблем с дифузионните модели е, че те разчитат на високоизмерни визуални характеристики за изпълнение на тези задачи и често изискват допълнително обучение, за да се възползват напълно от тези функции. 

Сегментиране без надзор

Алгоритъмът DiffSeg е тясно свързан с неконтролираното сегментиране, модерна практика на AI, която има за цел да генерира плътни маски за сегментиране, без да използва каквито и да е анотации. Въпреки това, за да осигурят добра производителност, моделите за неконтролирано сегментиране се нуждаят от предварително неконтролирано обучение за целевия набор от данни. Базираните на неконтролирано сегментиране AI рамки могат да бъдат характеризирани в две категории: клъстериране с помощта на предварително обучени модели и клъстериране въз основа на инвариантност. В първата категория рамките използват дискриминационните характеристики, научени от предварително обучени модели, за да генерират маски за сегментиране, докато рамките, намиращи се във втората категория, използват общ алгоритъм за групиране, който оптимизира взаимната информация между две изображения, за да сегментират изображения в семантични клъстери и избягване на изродена сегментация. 

Zero-Shot сегментиране

Алгоритъмът DiffSeg е тясно свързан с рамките за сегментиране с нулев удар, метод с възможност за сегментиране на всичко без предварително обучение или познаване на данните. Моделите за сегментиране с нулев изстрел демонстрираха изключителни възможности за прехвърляне с нулев изстрел в последно време, въпреки че изискват въвеждане на текст и подкани. За разлика от това, алгоритъмът DiffSeg използва дифузионен модел за генериране на сегментиране без запитване и синтезиране на множество изображения и без познаване на съдържанието на обекта. 

DiffSeg: Метод и архитектура

Алгоритъмът DiffSeg използва слоевете за самонасочване в предварително обучен стабилен модел на дифузия, за да генерира висококачествени задачи за сегментиране. 

Модел на стабилна дифузия

Стабилната дифузия е една от основните концепции в рамката на DiffSeg. Stable Diffusion е генерираща AI рамка и един от най-популярните дифузионни модели. Една от основните характеристики на дифузионния модел е преден и заден ход. При преминаването напред малко количество Гаусов шум се добавя към изображение итеративно на всяка времева стъпка, докато изображението стане изображение с изотропен Гаусов шум. От друга страна, при обратното преминаване дифузионният модел итеративно премахва шума в изображението с изотропен гаусов шум, за да възстанови оригиналното изображение без гаусов шум. 

Рамката Stable Diffusion използва енкодер-декодер и U-Net дизайн със слой за внимание, където използва енкодер за първо компресиране на изображение в латентно пространство с по-малки пространствени размери и използва декодера за декомпресиране на изображението. Архитектурата на U-Net се състои от стек от модулни блокове, където всеки блок е съставен от един от следните два компонента: Transformer Layer и ResNet слой. 

Компоненти и архитектура

Слоевете на самовниманието в дифузионните модели групират информацията за присъщите обекти под формата на карти на пространственото внимание, а DiffSeg е нов метод за последваща обработка за обединяване на тензорите на вниманието в валидна маска за сегментиране с тръбопровода, състоящ се от три основни компонента: агрегиране на вниманието, не-максимално потискане и итеративно внимание.

Агрегиране на вниманието

За входно изображение, което преминава през U-Net слоевете и Encoder, моделът Stable Diffusion генерира общо 16 тензора на вниманието, с 5 тензора за всяко от измеренията. Основната цел на генерирането на 16 тензора е да се агрегират тези тензори на вниманието с различни разделителни способности в тензор с възможно най-висока разделителна способност. За да постигне това, алгоритъмът DiffSeg третира 4-те измерения по различен начин един от друг. 

От четирите измерения, последните 2 измерения в сензорите за внимание имат различни разделителни способности, но те са пространствено последователни, тъй като 2D пространствената карта на рамката DiffSeg съответства на корелацията между местоположенията и пространствените местоположения. В резултат на това рамката DiffSeg взема проби от тези две измерения на всички карти на вниманието до най-високата разделителна способност от всички тях, 64 x 64. От друга страна, първите 2 измерения показват референтното местоположение на картите на вниманието, както е показано на следното изображение. 

Тъй като тези измерения се отнасят до местоположението на картите на вниманието, картите на вниманието трябва да бъдат съответно агрегирани. Освен това, за да се гарантира, че агрегираната карта на вниманието има валидно разпределение, рамката нормализира разпределението след агрегирането, като на всяка карта на вниманието се присвоява тегло, пропорционално на нейната резолюция. 

Итеративно обединяване на вниманието

Докато основната цел на агрегирането на вниманието беше да се изчисли тензор на вниманието, основната цел е да се слеят картите на вниманието в тензора към стек от предложения за обекти, където всяко отделно предложение съдържа или категорията на нещата, или активирането на един обект. Предложеното решение за постигане на това е чрез прилагане на алгоритъм K-Means върху валидното разпределение на тензорите за намиране на клъстерите на обектите. Използването на K-Means обаче не е оптималното решение, тъй като клъстерирането на K-Means изисква потребителите да посочат броя на клъстерите предварително. Освен това прилагането на алгоритъм на K-Means може да доведе до различни резултати за едно и също изображение, тъй като стохастично зависи от инициализацията. За да се преодолее препятствието, рамката DiffSeg предлага да се генерира решетка за вземане на проби, за да се създадат предложенията чрез итеративно обединяване на карти на вниманието. 

Не-максимално потискане

Предишната стъпка на итеративно обединяване на вниманието дава списък с предложения за обекти под формата на карти на вероятност или внимание, където всяко предложение за обект съдържа активирането на обекта. Рамката използва не-максимално потискане, за да преобразува списъка с предложения за обекти във валидна маска за сегментиране и процесът е ефективен подход, тъй като всеки елемент в списъка вече е карта на разпределението на вероятностите. За всяко пространствено местоположение във всички карти алгоритъмът взема индекса на най-голямата вероятност и присвоява членство на базата на индекса на съответната карта. 

DiffSeg : Експерименти и резултати

Рамките, работещи върху неконтролирано сегментиране, използват два показателя за сегментиране, а именно Cityscapes и COCO-stuff-27. Бенчмаркът Cityscapes е набор от данни за самостоятелно управление с 27 категории от средно ниво, докато бенчмаркът COCO-stuff-27 е подбрана версия на оригиналния набор от данни COCO-stuff, който обединява 80 неща и 91 категории в 27 категории. Освен това, за да анализира производителността на сегментирането, рамката DiffSeg използва средно пресичане над обединение или mIoU и точност на пикселите или ACC, и тъй като алгоритъмът DiffSeg не е в състояние да предостави семантичен етикет, той използва унгарския алгоритъм за съпоставяне, за да присвои основна маска на истината с всяка предвидена маска. В случай, че броят на прогнозираните маски надвишава броя на маските на основната истина, рамката ще вземе предвид несъответстващите прогнозирани задачи като фалшиви отрицания. 

Освен това, рамката на DiffSeg също набляга на следните три работи за изпълнение на смущения: езикова зависимост или LD, неконтролирана адаптация или UA и помощно изображение или AX. Езиковата зависимост означава, че методът се нуждае от описателни текстови входове, за да улесни сегментирането на изображението, Неконтролираната адаптация се отнася до изискването методът да използва неконтролирано обучение върху целевия набор от данни, докато Допълнителното изображение се отнася до това, че методът се нуждае от допълнителен вход като синтетични изображения, или като набор от референтни изображения. 

Резултати

В бенчмарка COCO рамката DiffSeg включва две k-средни базови линии, K-Means-S и K-Means-C. Бенчмаркът K-Means-C включва 6 клъстера, които изчислява чрез осредняване на броя на обектите в изображенията, които оценява, докато показателят K-Means-S използва определен брой клъстери за всяко изображение въз основа на броя на присъстващите обекти в основната истина на изображението, а резултатите и на двата показателя са демонстрирани на следното изображение. 

Както може да се види, базовата линия на K-Means превъзхожда съществуващите методи, като по този начин демонстрира ползата от използването на тензори за самовнимание. Интересното е, че показателят K-Means-S превъзхожда показателя K-Means-C, който показва, че броят на клъстерите е основен хиперпараметър и настройката му е важна за всяко изображение. Освен това, дори когато се разчита на едни и същи тензори на вниманието, рамката DiffSeg превъзхожда базовите линии на K-Means, което доказва способността на рамката DiffSeg не само да осигурява по-добро сегментиране, но и да избягва недостатъците, породени от използването на базовите линии на K-Means. 

В набора от данни Cityscapes рамката DiffSeg предоставя резултати, подобни на рамките, използващи вход с по-ниска разделителна способност 320, като същевременно превъзхожда рамки, които приемат входове с по-висока разделителна способност 512 по отношение на точността и mIoU. 

Както бе споменато по-горе, рамката DiffSeg използва няколко хиперпараметъра, както е показано на следното изображение. 

Агрегирането на вниманието е една от основните концепции, използвани в рамката на DiffSeg, и ефектите от използването на различни тегла на агрегиране са демонстрирани в следното изображение, като разделителната способност на изображението е постоянна. 

Както може да се види, картите с висока разделителна способност на Фигура (b) с карти 64 x 64 дават най-подробни сегменти, въпреки че сегментациите имат някои видими фрактури, докато картите с по-ниска разделителна способност 32 x 32 имат тенденция към свръхсегментиране на детайли, въпреки че това води до подобрени кохерентни сегментации. На Фигура (d) картите с ниска разделителна способност не успяват да генерират каквато и да е сегментация, тъй като цялото изображение е обединено в отделен обект със съществуващите настройки на хиперпараметри. И накрая, Фигура (a), която използва стратегия за пропорционално агрегиране, води до подобрени детайли и балансирана последователност. 

Заключителни мисли

Неконтролираната сегментация с нулев изстрел все още е едно от най-големите препятствия за рамки за компютърно зрение, а съществуващите модели разчитат или на неконтролирана адаптация без нулев изстрел, или на външни ресурси. За да преодолеем това препятствие, ние говорихме за това как слоевете за самовнимание в моделите на стабилна дифузия могат да позволят изграждането на модел, способен да сегментира всеки вход в настройка на нулев удар без подходящи пояснения, тъй като тези слоеве за самовнимание поддържат присъщите концепции за обектът, който предварително обучен стабилен модел на дифузия научава. Говорихме също за DiffSeg, нова стратегия за следпечат, която има за цел да оползотвори потенциала на рамката Stable Diffusion за конструиране на общ модел на сегментиране, който може да приложи нулев трансфер на всяко изображение. Алгоритъмът разчита на сходството между вниманието и сходството на вътрешното внимание, за да обедини картите на вниманието итеративно във валидни маски за сегментиране, за да постигне най-съвременното представяне на популярни бенчмаркове. 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.