никулец DiffSeg: Ненадгледувана сегментација со нула истрели користејќи стабилна дифузија - Unite.AI
Поврзете се со нас

Вештачка интелигенција

DiffSeg: Сегментација со нулта снимка без надзор со помош на стабилна дифузија

mm

Објавено

 on

DiffSeg: Сегментација со нулта снимка без надзор со помош на стабилна дифузија

Еден од основните предизвици во моделите засновани на компјутерска визија е генерирањето на висококвалитетни маски за сегментација. Неодамнешните достигнувања во големите надгледувани тренинзи овозможија сегментација на нула снимки низ различни стилови на слики. Дополнително, обуката без надзор ја поедностави сегментацијата без потреба од опширни прибелешки. И покрај овие случувања, изградбата на рамка за компјутерска визија способна да сегментира што било во поставка за нула снимка без прибелешки останува сложена задача. Семантичката сегментација, основен концепт во моделите за компјутерска визија, вклучува поделба на сликата на помали региони со униформа семантика. Оваа техника ја поставува основата за бројни задачи низводно, како што се медицински слики, уредување слики, автономно возење и многу повеќе.

За да се унапреди развојот на моделите за компјутерска визија, од клучно значење е сегментацијата на сликите да не е ограничена на фиксна база на податоци со ограничени категории. Наместо тоа, треба да дејствува како разноврсна основна задача за разни други апликации. Сепак, високата цена за собирање етикети по пиксел претставува значаен предизвик, ограничувајќи го напредокот на методите за нула и надгледувана сегментација кои не бараат прибелешки и немаат претходен пристап до целта. Оваа статија ќе разговара за тоа како влегуваат слоевите на само-внимание модели на стабилна дифузија може да го олесни создавањето на модел способен за сегментирање на кој било влез во поставка за нула, дури и без соодветни прибелешки. Овие слоеви за самовнимание инхерентно ги разбираат концептите на објектот научени од претходно обучен стабилен дифузен модел.

DiffSeg: Подобрен алгоритам за сегментирање со нула снимки

Семантичката сегментација е процес кој ја дели сликата на различни делови, при што секој дел споделува слична семантика. Оваа техника ја формира основата за бројни задачи низводно. Традиционално, задачите за компјутерска визија со нула снимка зависат од надгледувана семантичка сегментација, користејќи големи збирки податоци со означени и означени категории. Сепак, имплементирањето на ненадгледувана семантичка сегментација во поставување нула снимка останува предизвик. Додека традиционалните надгледувани методи се ефективни, нивната цена за етикетирање по пиксел е често преголема, нагласувајќи ја потребата за развој на методи за сегментација без надзор во помалку рестриктивна поставка за нула снимка, каде што моделот не бара ниту бележени податоци ниту претходно познавање на податоците.

За да се справи со ова ограничување, DiffSeg воведува нова стратегија за пост-обработка, користејќи ги можностите на рамката за стабилна дифузија за да изгради генерички модел на сегментација способен за пренос на нулта снимка на која било слика. Рамките за стабилна дифузија ја докажаа својата ефикасност во генерирање слики со висока резолуција врз основа на брзи услови. За генерирани слики, овие рамки можат да произведат маски за сегментација користејќи соодветни текстуални пораки, обично вклучувајќи само доминантни објекти во преден план.

Спротивно на тоа, DiffSeg е иновативен пост-обработка метод кој создава маски за сегментација со користење на тензори за внимание од слоевите за самовнимание во дифузиониот модел. Алгоритмот DiffSeg е составен од три клучни компоненти: итеративно спојување на вниманието, агрегација на вниманието и не-максимално потиснување, како што е илустрирано на следната слика.

Алгоритмот DiffSeg зачувува визуелни информации за повеќе резолуции со собирање на 4D тензори за внимание со просторна конзистентност и користење на итеративен процес на спојување со земање примероци на точки за прицврстување. Овие сидра служат како подлога за лансирање за спојување на маските за внимание со котвите на истите предмети кои се апсорбираат на крајот. Рамката DiffSeg го контролира процесот на спојување со помош на KL метод на дивергенција да се измери сличноста помеѓу две карти на внимание. 

Кога ќе се споредат со методите за сегментација без надзор засновани на кластери, програмерите не мора претходно да го специфицираат бројот на кластери во алгоритмот DiffSeg, па дури и без претходно знаење, алгоритмот DiffSeg може да произведе сегментација без користење дополнителни ресурси. Генерално, алгоритмот DiffSeg е „Нов метод на сегментација без надзор и нулта снимка што користи претходно обучен модел на стабилна дифузија и може да ги сегментира сликите без дополнителни ресурси или претходно знаење.

DiffSeg: Основни концепти

DiffSeg е нов алгоритам кој се надоврзува на учењето на моделите за дифузија, сегментацијата без надзор и сегментацијата со нула истрели. 

Модели за дифузија

Алгоритмот DiffSeg се надоврзува на учењето од претходно обучените модели на дифузија. Моделите за дифузија се една од најпопуларните генеративни рамки за моделите за компјутерска визија и го учи процесот на напред и обратна дифузија од примерок од изотропна слика на Гаусовиот шум за да генерира слика. Стабилна дифузија е најпопуларната варијанта на моделите за дифузија и се користи за извршување на широк спектар на задачи, вклучувајќи надгледувана сегментација, класификација со нула снимки, совпаѓање со семантичка кореспонденција, сегментација со ефикасна етикета и сегментација на отворен речник. Сепак, единствениот проблем со моделите за дифузија е тоа што тие се потпираат на високодимензионални визуелни карактеристики за извршување на овие задачи и често бараат дополнителна обука за целосно искористување на овие карактеристики. 

Сегментација без надзор

Алгоритмот DiffSeg е тесно поврзан со сегментација без надзор, модерна практика на вештачка интелигенција која има за цел да генерира густи маски за сегментација без да користи никакви прибелешки. Меѓутоа, за да се постигнат добри перформанси, на моделите за сегментација без надзор им е потребна претходна ненадгледувана обука за целната база на податоци. Рамките за вештачка интелигенција засновани на сегментација без надзор може да се карактеризираат во две категории: кластерирање со користење на претходно обучени модели и кластерирање врз основа на непроменливост. Во првата категорија, рамки ги користат дискриминативните карактеристики научени од претходно обучени модели за да генерираат маски за сегментација, додека рамки кои се наоѓаат во втората категорија користат генерички алгоритам за кластерирање што ги оптимизира меѓусебните информации помеѓу две слики за да ги сегментира сликите во семантички кластери. и избегнувајте дегенерирана сегментација. 

Сегментација со нула снимки

Алгоритмот DiffSeg е тесно поврзан со рамки за сегментација со нула снимка, метод со можност за сегментирање што било без претходна обука или познавање на податоците. Моделите за сегментација со нула снимки покажаа исклучителни способности за пренос на нула снимки во последно време, иако тие бараат одредено внесување текст и потсетници. Спротивно на тоа, алгоритмот DiffSeg користи модел на дифузија за да генерира сегментација без да бара и синтетизира повеќе слики и без да ја знае содржината на објектот. 

DiffSeg: Метод и архитектура

Алгоритмот DiffSeg ги користи слоевите за самовнимание во претходно обучен стабилен модел на дифузија за да генерира висококвалитетни задачи за сегментација. 

Модел на стабилна дифузија

Стабилна дифузија е еден од основните концепти во рамката DiffSeg. Стабилна дифузија е генеративна рамка за вештачка интелигенција и еден од најпопуларните модели на дифузија. Една од главните карактеристики на моделот за дифузија е напред и назад. Во напредното поминување, мала количина на Гаусовиот шум се додава на сликата повторливо во секој чекор додека сликата не стане изотропна слика на Гаусовиот шум. Од друга страна, во обратното поминување, моделот на дифузија итеративно го отстранува шумот во изотропната слика на Гаусовиот шум за да ја врати оригиналната слика без гаусовиот шум. 

Рамката за стабилна дифузија користи енкодер-декодер и U-Net дизајн со слој за внимание каде што користи енкодер за прво да ја компресира сликата во латентен простор со помали просторни димензии и го користи декодерот за декомпресија на сликата. Архитектурата U-Net се состои од куп модуларни блокови, каде што секој блок е составен од која било од следните две компоненти: трансформаторски слој и слој ResNet. 

Компоненти и архитектура

Слоевите за самовнимание во моделите на дифузија групираат информации за инхерентни објекти во форма на мапи за просторно внимание, а DiffSeg е нов метод на пост-обработка за спојување на тензорите на внимание во валидна маска за сегментација со цевководот кој се состои од три главни компоненти: агрегација на внимание, не-максимално потиснување и итеративно внимание.

Агрегација на внимание

За влезна слика што минува низ слоевите U-Net и енкодерот, моделот за стабилна дифузија генерира вкупно 16 тензори за внимание, со 5 тензори за секоја од димензиите. Примарната цел на генерирање на 16 тензори е да се агрегираат овие тензори за внимание со различна резолуција во тензор со најголема можна резолуција. За да се постигне ова, алгоритмот DiffSeg ги третира 4-те димензии различно една од друга. 

Од четирите димензии, последните 2 димензии во сензорите за внимание имаат различни резолуции, но тие се просторно конзистентни бидејќи 2D просторната карта на рамката DiffSeg одговара на корелацијата помеѓу локациите и просторните локации. Како резултат на тоа, рамката DiffSeg ги зема примероците од овие две димензии на сите мапи за внимание до највисока резолуција од сите, 64 x 64. Од друга страна, првите 2 димензии ја означуваат референцата на локацијата на картите за внимание како што е прикажано на следната слика. 

Бидејќи овие димензии се однесуваат на локацијата на мапите за внимание, картите за внимание треба соодветно да се соберат. Дополнително, за да се осигури дека мапата со збирно внимание има валидна дистрибуција, рамката ја нормализира дистрибуцијата по собирањето, при што на секоја карта на внимание и се доделува тежина пропорционална на нејзината резолуција. 

Повторливо спојување на вниманието

Додека примарната цел на агрегација на внимание беше да се пресмета тензорот на внимание, примарна цел е да се спојат мапите на внимание во тензорот со куп предлози за објекти каде што секој поединечен предлог содржи или категорија на работи или активирање на еден објект. Предложеното решение за да се постигне ова е со имплементирање на алгоритам K-Means за валидна дистрибуција на тензорите за да се најдат кластерите на објектите. Сепак, користењето на K-Means не е оптимално решение бидејќи кластерирањето K-Means бара од корисниците претходно да го специфицираат бројот на кластери. Понатаму, имплементирањето на алгоритам K-Means може да резултира со различни резултати за иста слика бидејќи стохастички зависи од иницијализацијата. За да се надмине пречката, рамката DiffSeg предлага да се генерира мрежа за земање примероци за да се креираат предлозите со спојување на мапи за внимание повторливо. 

Не-максимално потиснување

Претходниот чекор на итеративно спојување на вниманието дава листа на предлози за објекти во форма на мапи на веројатност или внимание каде што секој предлог објект содржи активирање на објектот. Рамката користи не-максимално потиснување за да го претвори списокот со предлози за објекти во валидна маска за сегментација, а процесот е ефективен пристап бидејќи секој елемент во листата е веќе мапа на распределбата на веројатноста. За секоја просторна локација на сите карти, алгоритмот го зема индексот на најголемата веројатност и доделува членство врз основа на индексот на соодветната карта. 

DiffSeg: Експерименти и резултати

Рамките кои работат на сегментација без надзор користат два одредници за сегментација, имено Cityscapes и COCO-stuff-27. Реперот Cityscapes е база на податоци за самостојно возење со 27 категории на средно ниво, додека реперот COCO-stuff-27 е курирана верзија на оригиналната база на податоци за COCO-материјали која спојува 80 работи и 91 категорија во 27 категории. Понатаму, за да се анализираат перформансите на сегментација, рамката DiffSeg користи средна пресек преку унија или mIoU и точност на пиксели или ACC, а бидејќи алгоритмот DiffSeg не може да обезбеди семантичка ознака, го користи унгарскиот алгоритам за совпаѓање за да додели маска за основа на вистината со секоја предвидена маска. Во случај бројот на предвидените маски да го надмине бројот на маски за основана вистина, рамката ќе ги земе предвид неспоредливите предвидени задачи како лажни негативни. 

Дополнително, рамката DiffSeg нагласува и на следните три дела за извршување на пречки: Јазична зависност или LD, Ненадгледувана адаптација или UA и помошна слика или AX. Јазичната зависност значи дека на методот му требаат описни внесувања на текст за да се олесни сегментацијата на сликата, Ненадгледуваната адаптација се однесува на барањето методот да користи ненадгледувана обука на целната база на податоци, додека Помошната слика упатува дека на методот му треба дополнително внесување или како синтетички слики. или како базен на референтни слики. 

Резултати

На реперот COCO, рамката DiffSeg вклучува две основни линии на k-средства, K-Means-S и K-Means-C. Реперот K-Means-C вклучува 6 кластери кои ги пресметал со просечен број на објекти на сликите што ги проценува, додека реперот K-Means-S користи одреден број кластери за секоја слика врз основа на бројот на присутни објекти во основната вистина на сликата, а резултатите од двата одредници се прикажани на следната слика. 

Како што може да се види, основната линија на K-Means ги надминува постоечките методи, со што се покажува користа од користењето тензори за самовнимание. Она што е интересно е дека реперот K-Means-S го надминува реперот K-Means-C што покажува дека бројот на кластери е основен хипер-параметар, а неговото подесување е важно за секоја слика. Понатаму, дури и кога се потпираат на истите тензори за внимание, рамката DiffSeg ги надминува основните линии на K-Means што ја докажува способноста на рамката DiffSeg не само да обезбедува подобра сегментација, туку и да ги избегне недостатоците што ги предизвикува користењето на основните линии на K-Means. 

На базата на податоци на Cityscapes, рамката DiffSeg дава резултати слични на рамки кои користат влез со пониска резолуција од 320 додека ги надминуваат рамки кои земаат повисоки влезови со резолуција од 512 преку точност и mIoU. 

Како што беше споменато претходно, рамката DiffSeg користи неколку хипер-параметри како што е прикажано на следната слика. 

Агрегирањето на вниманието е еден од основните концепти употребени во рамката DiffSeg, а ефектите од користењето на различни тежини за агрегација се прикажани на следната слика со константна резолуција на сликата. 

Како што може да се забележи, мапите со висока резолуција на слика (б) со карти 64 x 64 даваат најмногу детални сегментации, иако сегментациите имаат некои видливи фрактури, додека мапите со помала резолуција 32 x 32 имаат тенденција да ги пресегментираат деталите, иако тоа резултира со подобрени кохерентни сегментации. На сл (г), мапите со ниска резолуција не успеваат да генерираат сегментација бидејќи целата слика се спојува во единствен објект со постојните поставки за хипер-параметар. Конечно, слика (а) која користи стратегија за пропорционална агрегација резултира со подобрени детали и избалансирана конзистентност. 

Последни мисли

Ненадгледуваната сегментација со нулта снимка сè уште е една од најголемите пречки за рамки за компјутерска визија, а постоечките модели или се потпираат на ненадгледувана адаптација без нула или на надворешни ресурси. За да ја надминеме оваа пречка, разговаравме за тоа како слоевите за самовнимание во моделите со стабилна дифузија можат да овозможат изградба на модел способен да сегментира каков било влез во поставка за нула снимка без соодветни прибелешки бидејќи овие слоеви за самовнимание ги држат инхерентните концепти на објектот што го учи претходно обучениот стабилен дифузен модел. Зборувавме и за DiffSeg, нова стратегија по притискање, која има за цел да го искористи потенцијалот на рамката за стабилна дифузија за да конструира генерички модел на сегментација што може да имплементира пренос на нулта снимка на која било слика. Алгоритмот се потпира на сличноста меѓу вниманието и сличноста внатре во вниманието за да ги спои мапите на вниманието повторливо во валидни маски за сегментација за да се постигне најсовремена изведба на популарните репери. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.