никулец Лажирање „подобри“ тела со вештачка интелигенција - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Лажирање „подобри“ тела со вештачка интелигенција

mm
Ажурирани on

Новото истражување од академијата Алибаба ДАМО нуди работен тек управуван од вештачка интелигенција за автоматизирање на преобликувањето на сликите на телата - редок напор во секторот за компјутерска визија кој моментално е окупиран со манипулации засновани на лице како што се deepfakes и GAN-базирани уредување на лице.

Вметнати во колоните „резултат“, генерираните мапи на внимание кои ги дефинираат областите што треба да се изменат. Извор: https://arxiv.org/pdf/2203.04670.pdf

Вметнати во колоните „резултат“, генерираните мапи на внимание кои ги дефинираат областите што треба да се изменат. Извор: https://arxiv.org/pdf/2203.04670.pdf

Архитектурата на истражувачите користи проценка на позата на скелетот за да се справи со поголемата сложеност со која се соочуваат системите за синтеза и уредување на слики во концептуализацијата и параметризирањето на постоечките слики на телото, барем до ниво на грануларност што всушност овозможува значајно и селективно уредување.

Проценетите карти на скелет помагаат да се индивидуализира и да се фокусира вниманието на областите од телото кои веројатно ќе бидат ретуширани, како што е пределот на надлактицата.

Системот на крајот му овозможува на корисникот да постави параметри кои можат да го променат изгледот на тежината, мускулната маса или распределбата на тежината на фотографиите на луѓе со целосна или средна должина и може да генерира произволни трансформации на облечени или необлечени делови од телото.

Лево, влезната слика; средината, топлинска карта на изведените области на внимание; нели, трансформираната слика.

Лево, влезната слика; средината, топлинска карта на изведените области на внимание; нели, трансформираната слика.

Мотивацијата за работата е развојот на автоматизирани работни текови кои би можеле да ги заменат напорните дигитални манипулации преземени од фотографите и продукциските графичари во различни гранки на медиумите, од мода до списанија и списанија и публицитет материјал.

Општо земено, авторите признаваат, овие трансформации обично се применуваат со „warp“ техники во Photoshop и други традиционални уредувачи на битмапи, и речиси исклучиво се користат на слики од жени. Следствено, прилагодената база на податоци развиена за да се олесни новиот процес се состои главно од слики на женски субјекти:

„Бидејќи ретуширањето на телото главно го посакуваат жените, поголемиот дел од нашата колекција се женски фотографии, имајќи ја предвид различноста на возрасти, раси (африкански:азиски:кавкаски = 0.33:0.35:0.32), пози и облека.

на хартија е насловен Структурно-свесен тек на генерација за преобликување на човечкото тело, и доаѓа од пет автори поврзани со глобалната ДАМО академија на Alibaba.

Развој на збирки на податоци

Како што е вообичаено случајот со системите за синтеза и уредување на слики, архитектурата за проектот бара приспособена база на податоци за обука. Авторите нарачале тројца фотографи да направат стандардни Photoshop манипулации на соодветни слики од страницата за фотографирање Unsplash, што резултирало со база на податоци – насловена BR-5K* – од 5,000 слики со висок квалитет со 2K резолуција.

Истражувачите нагласуваат дека целта на обуката за оваа база на податоци не е да се произведат „идеализирани“ и генерализирани карактеристики кои се однесуваат на индекс на привлечност или посакуван изглед, туку повеќе да се извлечат мапирањата на централните карактеристики поврзани со професионалните манипулации на сликите на телото.

Сепак, тие признаваат дека манипулациите на крајот ги рефлектираат трансформативните процеси кои мапираат прогресија од „реално“ до однапред поставен поим за „идеален“:

„Покануваме тројца професионални уметници самостојно да ги ретушираат телата користејќи Photoshop, со цел да постигнат витки фигури кои одговараат на популарната естетика и да го изберат најдоброто како вистинска вистина.

Бидејќи рамката воопшто не се занимава со лица, тие беа замаглени пред да бидат вклучени во базата на податоци.

Архитектура и основни концепти

Работниот тек на системот вклучува внесување на портрет со висока резолуција, намалување на примерокот до пониска резолуција што може да се вклопи во достапните компјутерски ресурси и извлекување на проценета поза на мапата на скелетот (втора слика од лево на сликата подолу), како и полиња за афинитет на дел. (PAFs), кои беа иновирани во 2016 година од Институтот за роботика на Универзитетот Карнеги Мелон (видете го видеото вградено директно подолу).

Во реално време, мулти-лице 2D проценка на човечка поза со помош на полиња за афинитет на дел, CVPR 2017 Oral

Деловите за афинитети помагаат да се дефинира ориентацијата на екстремитетите и општата поврзаност со пошироката скелетна рамка, обезбедувајќи му на новиот проект дополнителна алатка за внимание/локализација.

Од трудот Part Affinity Fields од 2016 година, предвидените PAF ја шифрираат ориентацијата на екстремитетите како дел од 2D вектор кој ја вклучува и општата положба на екстремитетот. Извор: https://arxiv.org/pdf/1611.08050.pdf

Од трудот Part Affinity Fields од 2016 година, предвидените PAF ја шифрираат ориентацијата на екстремитетите како дел од 2D вектор кој ја вклучува и општата положба на екстремитетот. Извор: https://arxiv.org/pdf/1611.08050.pdf

И покрај нивната очигледна ирелевантност за изгледот на тежината, мапите на скелетот се корисни за насочување на конечните трансформативни процеси кон делови од телото што треба да се променат, како што се надлактиците, задниот дел и бутовите.

После ова, резултатите се внесуваат во Структурно афинитет за самовнимание (SASA) во централното тесно грло на процесот (видете ја сликата подолу).

SASA ја регулира конзистентноста на генераторот на проток што го поттикнува процесот, чии резултати потоа се пренесуваат на модулот за искривување (втор од десно на сликата погоре), кој ги применува трансформациите научени од обуката за рачните ревизии вклучени во базата на податоци. .

Модулот Structure Affinity Self-Attention (SASA) одвојува внимание на релевантни делови од телото, помагајќи да се избегнат надворешни или ирелевантни трансформации.

Модулот Structure Affinity Self-Attention (SASA) одвојува внимание на релевантни делови од телото, помагајќи да се избегнат надворешни или ирелевантни трансформации.

Излезната слика последователно се враќа во оригиналната 2K резолуција, користејќи процеси кои не се слични на стандардната архитектура во стилот на 2017 година, од која оттогаш се изведени популарни пакети како што е DeepFaceLab; процесот на зголемување на примерокот е исто така вообичаен во рамки за уредување GAN.

Мрежата за внимание за шемата е моделирана по Композициски мрежи за де-внимание (Кода), академска соработка во САД/Сингапур од 2019 година со АИ Амазон и Мајкрософт.

Тестови

Рамката заснована на проток беше тестирана со претходни методи засновани на проток ФАЛ и анимирање преку искривување (ATW), како и архитектури за превод на слики Pix2PixHD GFLA, Со SSIM, PSNR и LPIPS како метрика за евалуација.

Резултати од почетните тестови (насоката на стрелките во заглавијата покажува дали пониските или повисоките бројки се најдобри).

Резултати од почетните тестови (насоката на стрелките во заглавијата покажува дали пониските или повисоките бројки се најдобри).

Врз основа на овие усвоени метрики, системот на авторите ги надминува претходните архитектури.

Избрани резултати. Ве молиме погледнете го оригиналниот PDF поврзан во оваа статија за споредби со поголема резолуција.

Избрани резултати. Ве молиме погледнете го оригиналниот PDF поврзан во оваа статија за споредби со поголема резолуција.

Покрај автоматизираната метрика, истражувачите спроведоа корисничка студија (последна колона од табелата со резултати на сликата претходно), каде што на 40 учесници им беа покажани 30 прашања случајно избрани од базен од 100 прашања кои се однесуваат на сликите произведени преку различни методи. 70% од испитаниците ја фаворизирале новата техника како „визуелно попривлечна“.

Предизвици

Новиот труд претставува ретка екскурзија во манипулација со телото базирана на вештачка интелигенција. Секторот за синтеза на слики моментално е многу позаинтересиран или за генерирање тела што може да се уредуваат преку методи како што се полиња со невронски зрачење (NeRF), или пак е фиксиран на истражување на латентниот простор на GAN и потенцијалот на автоенкодерите за манипулација со лицето.

Иницијативата на авторите моментално е ограничена на производство на промени во воочената тежина и тие немаат имплементирано никаков вид техника на сликање што би ја вратило позадината што неизбежно се открива кога ќе ја намалите сликата на некого.

Сепак, тие предлагаат дека портретот и мешањето на заднината преку текстурални заклучоци би можеле тривијално да го решат проблемот со обновувањето на деловите од светот кои порано биле скриени во сликата од човечката „несовршеност“.

Предложено решение за враќање на позадината што се открива со намалувањето на маснотиите со помош на вештачка интелигенција.

Предложено решение за враќање на позадината што се открива со намалувањето на маснотиите со помош на вештачка интелигенција.

 

* Иако претходното печатење се однесува на дополнителен материјал кој дава повеќе детали за базата на податоци, како и дополнителни примери од проектот, локацијата на овој материјал не е достапна во трудот, а соодветниот автор сè уште не одговорил на нашето барање за пристап .

Прво објавено на 10 март 2022 година.