Штучний інтелект

Використання людської уваги може покращити зображення, згенеровані ШІ

Published October 16, 2024

Updated March 20, 2026

Martin Anderson

An AI-generated image by ChatGPT. Prompt: ' a panoramic image representing salient object detection, featuring a person. The salient heat-map should be clear and obvious, and this illustration should be in the style of results from scientific papers about saliency maps'

Нове дослідження з Китаю запропонувало метод покращення якості зображень, що генеруються моделями Latent Diffusion Models (LDMs), такими як Stable Diffusion. Метод зосереджується на оптимізації салієнтних регіонів зображення – областей, які з найбільшою ймовірністю привернуть увагу людини.

Нове дослідження виявило, що салієнтні карти (четвертий стовпець зліва) можна використовувати як фільтр або ‘маску’ для спрямування фокусу уваги в процесах видалення шуму на області зображення, які люди, найімовірніше, будуть розглядати. Джерело: https://arxiv.org/pdf/2410.10257

Традиційні методи рівномірно оптимізують все зображення, тоді як новий підхід використовує детектор салієнтності для ідентифікації та пріоритизації більш “важливих” регіонів, як це робить людина. У кількісних та якісних тестах метод дослідників зміг перевершити попередні дифузійні моделі як за якістю зображення, так і за відповідністю текстовим запитам. Новий підхід також набрав найбільше балів у тесті на людське сприйняття за участю 100 осіб.

Природний відбір

Салієнтність, здатність пріоритизувати інформацію в реальному світі та на зображеннях, є важливою частиною людського зору. Простим прикладом цього є підвищена увага до деталей, яку класичне мистецтво приділяє важливим областям картини, таким як обличчя на портреті або щогли корабля в морському сюжеті; у таких прикладах увага художника зосереджується на центральному об’єкті, а це означає, що загальні деталі, такі як фон портрету або далекі хвилі шторму, є більш схематичними та узагальненими, ніж деталізованими. На основі досліджень людського сприйняття за останнє десятиліття з’явилися методи машинного навчання, які можуть відтворити або принаймні наблизити цей людський фокус інтересу на будь-якому зображенні.

Сегментація об’єктів (семантична сегментація) може допомогти у виокремленні аспектів зображення та розробці відповідних салієнтних карт. Джерело: https://arxiv.org/pdf/1312.6034

У ряді наукових публікацій найпопулярнішим детектором салієнтних карт за останні п’ять років була ініціатива 2016 року Gradient-weighted Class Activation Mapping (Grad-CAM), яка згодом еволюціонувала в покращену систему Grad-CAM++ серед інших варіантів та удосконалень. Grad-CAM використовує градієнтну активацію семантичного токена (наприклад, “собака” або “кіт”) для створення візуальної карти того, де ця концепція або анотація, ймовірно, представлена на зображенні.

Приклади з оригінальної статті про Grad-CAM. У другому стовпці кероване зворотне поширення виокремлює всі релевантні ознаки. У третьому стовпці намальовані семантичні карти для двох концепцій ‘собака’ та ‘кіт’. Четвертий стовпець представляє об’єднання двох попередніх висновків. П’ятий – карта оклюзії (маскування), що відповідає висновку; і, нарешті, у шостому стовпці Grad-CAM візуалізує шар ResNet-18. Джерело: https://arxiv.org/pdf/1610.02391

Опитування людей щодо результатів, отриманих цими методами, виявили відповідність між цими математичними виокремленнями ключових точок інтересу на зображенні та людською увагою (при огляді зображення).

SGOOL

Нова стаття розглядає, що салієнтність може привнести в системи текст-в-зображення (і, потенційно, текст-в-відео), такі як Stable Diffusion і Flux. При інтерпретації текстового запиту користувача моделі латентної дифузії досліджують навчений латентний простір у пошуку вивчених візуальних концепцій, що відповідають використаним словам або фразам. Потім вони пропускають знайдені точки даних через процес видалення шуму, де випадковий шум поступово перетворюється на творчу інтерпретацію текстового запиту користувача. Однак на цьому етапі модель приділяє рівну увагу кожній окремій частині зображення. З популяризацією дифузійних моделей у 2022 році, з запуском доступних генераторів зображень Dall-E від OpenAI та подальшим відкриттям вихідного коду фреймворку Stable Diffusion від Stability.ai, користувачі виявили, що “важливі” частини зображення часто опрацьовуються недостатньо. Враховуючи, що в типовому зображенні людини обличчя особи (яке має максимальне значення для глядача), ймовірно, займає не більше 10-35% загальної площі зображення, такий демократичний метод розподілу уваги суперечить як природі людського сприйняття, так і історії мистецтва та фотографії. Коли гудзики на джинсах людини отримують таку ж обчислювальну потужність, як і її очі, розподіл ресурсів можна назвати неоптимальним. Тому новий метод, запропонований авторами, під назвою Saliency Guided Optimization of Diffusion Latents (SGOOL), використовує мапер салієнтності для збільшення уваги на занедбаних ділянках картини, присвячуючи менше ресурсів ділянкам, які, ймовірно, залишаться на периферії уваги глядача.

Метод

Конвеєр SGOOL включає генерацію зображення, побудову салієнтної карти та оптимізацію, причому загальне зображення та зображення, уточнене за салієнтністю, обробляються спільно.

Концептуальна схема SGOOL.

Латентні ембеддинги дифузійної моделі оптимізуються безпосередньо за допомогою тонкого налаштування, що усуває необхідність навчання конкретної моделі. Метод вибірки Denoising Diffusion Implicit Model (DDIM) Стенфордського університету, знайомий користувачам Stable Diffusion, адаптовано для включення додаткової інформації, що надається салієнтними картами. У статті зазначено:

‘Ми спочатку використовуємо детектор салієнтності, щоб імітувати систему візуальної уваги людини та позначити салієнтні регіони. Щоб уникнути перетренування додаткової моделі, наш метод безпосередньо оптимізує латентні представлення дифузії.

‘Крім того, SGOOL використовує оборотний дифузійний процес і наділяє його перевагами реалізації з постійною пам’яттю. Отже, наш метод стає параметрично ефективним методом тонкого налаштування типу “підключи і працюй”. Було проведено широкі експерименти з використанням кількох метрик та людської оцінки.’

Оскільки цей метод вимагає багаторазових ітерацій процесу видалення шуму, автори прийняли фреймворк Direct Optimization Of Diffusion Latents (DOODL), який забезпечує оборотну дифузію – хоча він все ще застосовує увагу до всього зображення. Для визначення областей людського інтересу дослідники використали фреймворк TransalNet 2022 року Університету Данді.

Приклади виявлення салієнтності з проекту TransalNet 2022 року. Джерело: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

Салієнтні регіони, оброблені TransalNet, потім були обрізані для генерації визначальних салієнтних секцій, які, найімовірніше, будуть найцікавішими для реальних людей. Різницю між текстом користувача та зображенням необхідно враховувати з точки зору визначення функції втрат, яка може визначити, чи працює процес. Для цього була використана версія Contrastive Language–Image Pre-training (CLIP) від OpenAI – наразі основного інструменту в дослідницькому секторі синтезу з

Related Topics:AI image generation image recognition Stable Diffusion

Martin Anderson

Письменник з машинного навчання, спеціаліст у галузі синтезу зображень людини. Колишній керівник досліджень контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Використання людської уваги може покращити зображення, згенеровані ШІ

Природний відбір

SGOOL

Метод

You may like