никулец AI Image Matting што ги разбира сцените - Unite.AI
Поврзете се со нас

Вештачка интелигенција

AI Image Matting што ги разбира сцените

mm
Ажурирани on

Во дополнителниот документарец што го придружува ДВД изданието на 2003 година Alien3 (1992), легендата за визуелни ефекти Ричард Едлунд со ужас се присети на „сумо борењето“ со фотохемиска мат екстракција што доминираше во работата на визуелните ефекти помеѓу доцни 1930s и доцните 1980-ти. Едлунд ја опиша природата на процесот на „удирање и промашување“ како „сумо борење“, во споредба со техниките на дигитален сино/зелен екран што го презедоа во раните 1990-ти (и тој има се врати на метафората бидејќи).

Извлекувањето на елемент во преден план (како личност или модел на вселенски брод) од позадина, така што отсечената слика може да се состави во заднинска плоча, првично беше постигнато со снимање на објектот во преден план на униформа сина или зелена позадина.

Макотрпни процеси на фотохемиска екстракција за VFX снимен од ILM за „Враќањето на Џедајот“ (1983). Извор: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Макотрпни процеси на фотохемиска екстракција за VFX снимен од ILM за „Враќањето на Џедајот“ (1983). Извор: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Во добиената снимка, бојата на позадината последователно ќе биде изолирана хемиски и ќе се користи како шаблон за повторно печатење на предметот (или личноста) во преден план во оптички печатач како „лебдечки“ објект во инаку проѕирна филмска ќелија.

Процесот беше познат како преклопување на раздвојување на бои (CSO) - иако овој термин на крајот ќе стане повеќе поврзан со суровата „Chromakey“ видео ефекти во понискобуџетниот телевизиски излез од 1970-тите и 1980-тите, кои беа постигнати со аналогни наместо со хемиски или дигитални средства.

Демонстрација на преклопување на раздвојување на бои во 1970 година за британското детско шоу „Blue Peter“. Извор: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Демонстрација на преклопување на раздвојување на бои во 1970 година за британското детско шоу „Blue Peter“. Извор: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Во секој случај, без разлика дали станува збор за филмски или видео елементи, потоа извадената снимка може да се вметне во која било друга снимка.

Иако Дизни е значително поскап и неслободен процес на натриум-пареа (која клучна жолта, конкретно, и исто така беше користат за хоророт на Алфред Хичкок од 1963 година Птиците) даде подобра дефиниција и остри мат, фотохемиската екстракција остана макотрпна и несигурна.

Комерцијалниот процес на екстракција на натриумска пареа на Дизни бараше позадини во близина на жолтиот крај на спектарот. Овде, Анџела Лансбери е суспендирана на жици за време на продукцијата на секвенца со VFX за „Bedknobs and Broomsticks“ (1971). Извор

Комерцијалниот процес на екстракција на натриумска пареа на Дизни бараше позадини во близина на жолтиот крај на спектарот. Овде, Анџела Лансбери е суспендирана на жици за време на продукцијата на секвенца со VFX за „Bedknobs and Broomsticks“ (1971). извор

Надвор од дигитално матирање

Во 1990-тите, дигиталната револуција ги отфрли хемикалиите, но не и потребата за зелени екрани. Сега беше можно да се отстрани зелената (или која било боја) позадина само со пребарување на пиксели во опсегот на толеранција на таа боја, во софтвер за уредување пиксели, како што е Photoshop, и нова генерација пакети за компонирање видео што може автоматски да се исклучат обоените позадини. Речиси преку ноќ, шеесет години од индустријата за оптичко печатење беа предадени на историјата.

Последните десет години истражување на компјутерската визија забрзано со графички процесор го воведува извлекувањето на мат во трето доба, задолжувајќи им на истражувачите да развијат системи кои можат да извлечат висококвалитетни мат без потреба од зелени екрани. Само во Arxiv, трудовите поврзани со иновациите во извлекувањето преден план засновано на машинско учење се неделна карактеристика.

Ставајќи нè на сликата

Овој локус на академски и индустриски интерес за екстракција на вештачка интелигенција веќе влијаеше на просторот на потрошувачите: суровите, но остварливи имплементации ни се познати на сите во форма на зум Skype филтри кои можат да ги заменат позадините на нашата дневна соба со тропски острови, и други, во видео-конференциски повици.

Сепак, најдобрите мат сè уште бараат зелен екран, како Забележано е зумирање минатата среда.

Лево, човек пред зелен екран, со добро извлечена коса преку функцијата за виртуелна позадина на Zoom. Лево, жена пред нормална домашна сцена, со коса извлечена алгоритамски, понепрецизно и со повисоки барања за компјутери. Извор: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Лево, човек пред зелен екран, со добро извлечена коса преку функцијата за виртуелна позадина на Zoom. Точно, жена пред нормална домашна сцена, со коса извлечена алгоритамски, понепрецизно и со повисоки барања за компјутери. Извор: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A понатамошен пост од платформата за поддршка за зумирање предупредува дека извлекувањето без зелен екран бара и поголема компјутерска моќ на уредот за снимање.

Потребата да се намали

Подобрувањата во квалитетот, преносливоста и економичноста на ресурсите за матните системи за извлекување „во дивината“ (т.е. изолирање на луѓето без потреба од зелени екрани) се релевантни за многу повеќе сектори и определби отколку само филтри за видеоконференции.

За развој на податоци, подобреното препознавање на лицето, целата глава и целото тело нуди можност да се осигури дека надворешните елементи на позадината не се обучуваат за модели на компјутерска визија на човечки субјекти; попрецизна изолација во голема мера би се подобрила семантичка сегментација техники дизајнирани да разликуваат и асимилираат домени (т.е 'мачка', "личност", 'брод'), и да се подобри За жал трансформатор- базирани системи за синтеза на слики, како што е новиот на OpenAI ДАЛ-Е2; и подобри алгоритми за извлекување би ја намалиле потребата од скап прирачник ротоскопирање во скапи VFX цевководи.

Всушност, надмоќта на мултимодален (обично текст/слика) методологии, каде што доменот како што е „мачка“ е кодиран и како слика и со придружни референци на текстот, веќе навлегува во обработката на сликите. Еден неодамнешен пример е Text2Live архитектура, која користи мултимодална обука (текст/слика) за создавање видеа, меѓу безброј други можности, кристални лебеди и стаклени жирафи.

Метирање со вештачка интелигенција за сцената

Добар дел од истражувањата за автоматско матирање базирано на вештачка интелигенција се фокусираа на препознавање на границите и евалуација на групирања базирани на пиксели во рамка за слика или видео. Сепак, новото истражување од Кина нуди цевковод за екстракција што ја подобрува разграничувањето и матниот квалитет со користење описи базирани на текст на сцена (мултимодален пристап кој се здоби со привлечност во секторот за истражување на компјутерска визија во последните 3-4 години), тврдејќи дека ги подобрил претходните методи на повеќе начини.

Пример за екстракција SPG-IM (последна слика, долниот десен агол), во споредба со конкурентските претходни методи. Извор: https://arxiv.org/pdf/2204.09276.pdf

Пример за екстракција SPG-IM (последна слика, долниот десен агол), во споредба со конкурентските претходни методи. Извор: https://arxiv.org/pdf/2204.09276.pdf

Предизвикот поставен за подсекторот за истражување на екстракција е да се произведат работни текови кои бараат минимален минимум рачна прибелешка и човечка интервенција - идеално, нема. Покрај импликациите за трошоците, истражувачите на новиот труд забележуваат дека прибелешките и рачните сегментации преземени од аутсорсинг работници низ различни култури може да предизвикаат етикетирање или дури и сегментирање на сликите на различни начини, што доведува до неконзистентни и незадоволителни алгоритми.

Еден пример за ова е субјективното толкување на она што го дефинира „објектот во преден план“:

Од новиот труд: претходните методи LFM и MODNet („GT“ означува Ground Truth, „идеален“ резултат често постигнат рачно или со неалгоритамски методи), имаат различни и различно ефективни сфаќања за дефиницијата на содржината во преден план, додека новиот Методот SPG-IM поефикасно ја разграничува „блиската содржина“ преку контекстот на сцената.

Од новиот труд: претходни методи ЛФМ МОДНет („GT“ ја означува основната вистина, „идеален“ резултат често постигнат рачно или со неалгоритамски методи), имаат различни и различно ефективни сфаќања за дефиницијата на содржината во преден план, додека новиот метод SPG-IM поефикасно ја разграничува „блиската содржина преку контекст на сцената.

За да го решат ова, истражувачите развија двостепен гасовод со наслов Спарување на сликата со водена ситуациска перцепција (SPG-IM). Двостепената архитектура на енкодер/декодер се состои од дестилација на ситуациска перцепција (SPD) и водена перцепција на ситуацијата (SPGM).

Архитектурата SPG-IM.

Архитектурата SPG-IM.

Прво, СПД предобучува трансформации на карактеристики од визуелно во текстуално, создавајќи титли соодветни на нивните поврзани слики. По ова, предвидувањето на маската во преден план е овозможено со поврзување на гасоводот со роман предвидување на истакнатост техника.

Потоа SPGM дава проценет алфа мат врз основа на необработениот влез на RGB слика и генерираната маска добиена во првиот модул.

Целта е насоки за ситуациска перцепција, при што системот има контекстуално разбирање за тоа од што се состои сликата, овозможувајќи му да го врами - на пример - предизвикот за вадење сложена коса од позадина наспроти познатите карактеристики на таквата специфична задача.

Во примерот подолу, SPG-IM разбира дека жиците се суштински на „падобран“, каде што MODNet не успева да ги задржи и дефинира овие детали. Исто така погоре, комплетната структура на апаратот за игралиште произволно се губи во MODNet.

Во примерот подолу, SPG-IM разбира дека жиците се суштински на „падобран“, каде што MODNet не успева да ги задржи и дефинира овие детали. Исто така погоре, комплетната структура на апаратот за игралиште произволно се губи во MODNet.

Нови хартија е насловен Спарување на сликата со водена ситуациска перцепција, и доаѓа од истражувачите од Институтот за истражување OPPO, PicUp.ai и Xmotors.

Интелигентни автоматизирани мати

SPG-IM нуди и адаптивна фокална трансформација (AFT) мрежа за усовршување која може одделно да ги обработува локалните детали и глобалниот контекст, олеснувајќи ги „интелигентните матирања“.

Разбирањето на контекстот на сцената, во овој случај „девојка со коњ“, потенцијално може да го олесни извлекувањето на предниот план од претходните методи.

Разбирањето на контекстот на сцената, во овој случај „девојка со коњ“, потенцијално може да го олесни извлекувањето на предниот план од претходните методи.

Во трудот се вели:

„Веруваме дека визуелните претстави од визуелно-текстуалната задача, на пр титлување на сликата, фокусирајте се на посемантички сеопфатни сигнали помеѓу а)објект до објект и б)објект кон околината за да генерирате описи кои можат да ги опфатат и глобалните информации и локалните детали. Дополнително, во споредба со скапата прибелешка за пиксели за матирање на сликата, текстуалните етикети можат масовно да се собираат по многу ниска цена.'

Филијалата на архитектурата на СПД е заеднички однапред обучена со Универзитетот во Мичиген VirTex Текстуален декодер базиран на трансформатор, кој учи визуелни претстави од семантички густи натписи.

VirTex заеднички тренира ConvNet и Transformers преку двојки со натписи на слики и ги пренесува добиените сознанија до задачите за визија надолу, како што е откривање на објекти. Извор: https://arxiv.org/pdf/2006.06666.pdf

VirTex заеднички тренира ConvNet и Transformers преку двојки со натписи на слики и ги пренесува добиените сознанија до задачите за визија надолу, како што е откривање на објекти. Извор: https://arxiv.org/pdf/2006.06666.pdf

Меѓу другите тестови и студии за аблација, истражувачите тестираа SPG-IM против најсовремена технологија тримапметоди засновани на длабоко матирање на сликата (DIM), ИндексНет, Контекст-свесна слика за матење (CAM), Водено контекстуално внимание (GCA), FBA, и мапирање на семантички слики (ДА).

Други претходни тестирани рамки вклучуваа пристапи без тримап ЛФМ, HAttMatting, и МОДНет. За правична споредба, методите на тестирање беа приспособени врз основа на различните методологии; каде кодот не беше достапен, техниките на трудот беа репродуцирани од опишаната архитектура.

Во новиот труд се наведува:

„Нашиот SPG-IM ги надминува сите конкурентни методи без тримапирање ([LFM], [HAttMatting] и [MODNet]) со голема разлика. Во меѓувреме, нашиот модел, исто така, покажува извонредна супериорност во однос на најсовремените (SOTA) методи базирани на тримап и водени со маски во однос на сите четири метрики низ јавните збирки податоци (т.е. Composition-1K, Distinction-646 и Human -2K), и нашиот репер Multi-Object-1K.'

И продолжува:

„Очигледно може да се забележи дека нашиот метод зачувува фини детали (на пр. места за врвовите на косата, проѕирните текстури и граници) без насоки од тримап. Покрај тоа, во споредба со другите конкурентни модели без тримап, нашиот SPG-IM може да задржи подобра глобална семантичка комплетност.'

 

Прво објавено на 24 април 2022 година.