Лідери думок
Чому ваші зображення AI приходять з помилками — І як їх покращити

Моделі генерації зображень на основі тексту, керованих AI, потрясли цифрове мистецтво та створення контенту, дозволяючи будь-якому користувачеві, незалежно від його походження, створювати високоякісні, настраювані візуальні ефекти за допомогою декількох слів за частку часу, яку потребував би людина-професіонал за допомогою класичних інструментів дизайну чи фотографії.
З потужними технологічними досягненнями AI-допоміжна творчість стає все більш інтегральною частиною робочих процесів у різних галузях. Однак створення комерційно готової частини з AI не полягає у натисканні магічної кнопки, оскільки її ефект “воля” не завжди дає придатні результати, особливо для тих, хто покладає на неї надії щодо професійного мистецтва та дизайну.
Насправді, хоча освоєння написання запитів — мови, яку розуміє AI, — є основною умовою для досягнення виходу, який відповідає творчій візії, зображення, згенеровані AI, можуть все ще мати деякі спільні розчаровуючі недоліки, які впливають не тільки на початківців, але й на досвідчених творців. Переборювання цих проблем часто вимагає додаткових знань та навичок як від користувачів, так і від розробників.
Нижче я викладу найчастіші виклики генерації зображень AI та поділюся практичними рішеннями для роботи навколо них.
Комплексність інженерії запитів
Основна привабливість генерації зображень AI полягає у перетворенні ідей у візуальні ефекти майже миттєво за допомогою лише слів. Однак складність інженерії запитів все ще є одним із найбільших бар’єрів для створення значимих зображень. Навіть незначні варіації у формулюванні можуть привести до суттєво різних результатів. Структури запитів також можуть відрізнятися між моделями, тому те, що працює добре в одній моделі, може давати погані результати в іншій. Це відсутність стандартизації мови запитів часто змушує користувачів проходити через спроби та помилки.
Бібліотеки запитів та бази даних допомагають зменшити вгадування, надаючи попередньо протестовані запити, на які користувачі можуть посилатися або змінювати за потребою. Візуальні інструменти створення запитів дозволяють користувачам вводити ключові слова структурованим чином, вибирати атрибути, регулювати повзунки та інше, роблячи процес створення ефективного запиту більш інтуїтивним. Навчання на успішних запитах, поділених спільнотою, також цінне, оскільки ці реальні приклади демонструють, що працює.
Для покращення узгодженості стандартизовані керівництва з синтаксису запитів пропонують найкращі практики для структурування входів ключових слів у різних моделях. Використання шаблонів запитів сприяє більш передбачуваним результатам, допомагаючи користувачам генерувати декілька зображень із узгодженим стилем. Нові моделі, такі як FLUX, є більш дружніми до користувача в цілому, оскільки вони розроблені для того, щоб бути менш чутливими до складності запитів, дозволяючи користувачам створювати узгодженні, складні сцени з більш простими інструкціями.
Неточність анатомії
Через те, як нейронні мережі вчаться на наборах даних, моделі дифузії насправді не розуміють анатомію — вони генерують зображення на основі розпізнавання патернів, а не структурованої біологічної основи. Наприклад, AI не бачить руку як склад із п’яти окремих пальців, які можуть артикулюватися по-різному. Замість цього воно поєднує статистичні середні значення, побачені у тренувальних зображеннях. В результаті відхилення від очікуваних поз або кутів можуть викликати спотворення. Хоча сучасні моделі значно покращилися, аномалії, такі як додаткові пальці, нереальні пропорції обличчя та тіла, нереалістичні з’єднання кінцівок та розміщення суглобів або асиметричні та неправильно виравлені очі, залишаються поширеними.
Дофільтрування моделей за допомогою LoRas (технології низькорангової адаптації), спрямованої явно на анатомічні набори даних, допомагає їм розвинути більш повне розуміння людської структури. ControlNets, особливо ті, які використовують оцінку пози або виявлення країв (таких як фільтри Кенні), дозволяють AI дотримуватися анатомічних керівництв.
Запити, які конкретно посилаються на реалістичні деталі тіла, також можуть покращити анатомічну точність згенерованих фігур. Постобробка з інструментами корекції, які знають анатомію, дозволяє користувачам виправляти пошкоджені ділянки без перегенерації всього зображення.
Несумісність ідентичності через декілька поколінь
Оскільки AI обробляє кожне покоління як незалежний процес, підтримання узгодженого вигляду персонажа через декілька зображень залишається викликом, особливо проблематичним для оповідань або серійної творчості, де безперервність персонажа є важливою. Навіть при використанні одного й того самого запиту можуть з’являтися тонкі зміни у лицевих рисах, одязі або стилі між рендерами. Проблема може стати ще більш вираженою у пакетних генераціях, де якість та візуальні ознаки коливаються непередбачувано.
Навчання LoRA на наборі зображень конкретної особи чи об’єкта та використання посилальної зображення як входу може покращити умовність ідентичності, узгодженість та уніформність. Техніки вкладення та адаптери (як PuLID, IPAdapter, InstantID та EcomID) допомагають зберегти риси персонажа через покоління. Коли точність обличчя є критичною, моделі заміни обличчя або постобробка пропонують більш підходящу розвинену точність, забезпечуючи, щоб ключові риси лиця залишалися ідентичними з покоління в покоління.
Несумісність фону
Згенеровані AI фони схильні до нереалістичних, структурованих та контекстно несумісних дизайнів, роблячи зображення менш правдоподібними. Наприклад, перспектива може відчуватися неправильною, або освітлення та тіні можуть не відповідати предмету. Це відбувається через те, що моделі дифузії сприймають фон як вторинний елемент, а не як інтегральну частину сцени, що призводить до проблем з глибинним сприйняттям, кореляцією об’єктів та контекстом середовища.
Карти глибини допомагають моделям інтерпретувати просторові відносини більш точно, полегшуючи більш реалістичну інтеграцію між переднім та заднім планом. Керівництва перспективи забезпечують геометричну узгодженість, допомагаючи підтримувати архітектурні структури та точки зникнення узгодженими. Фокусовані LoRas можуть вивчити генерацію освітлення та тіней разом із фоном, забезпечуючи, щоб відображення поводилися природно по всій сцені.
Дофільтрування моделей на наборах даних, що представляють конкретні середовища (наприклад, міські пейзажі, природні сцени чи інтер’єри), може покращити загальну реалістичність фону. Посилальні зображення фону також допоможуть закріпити генерацію реальних композицій.
Проблеми з відтворенням тексту
Навчені переважно на візуальних даних, а не структурованій мові, AI бореться з генерацією читабельних слів та фраз у зображенні. Текст може виглядати незавершеним, безглуздим, заплутаним або нісенітним, з нерегулярними шрифтами чи неправильним розміщенням. Коли читабельний, він все ще може виглядати стилістично неправильним або незграбно вбудованим у фон.
На відміну від людей, більшість моделей AI не розпізнають текст як окремий від навколишніх елементів, тому вони не обробляють його як окрему сутність. Замість цього вони обробляють послідовності символів як ще один візуальний патерн, що складається з абстрактних форм, а не значимих семантичних символів.
Для покращення якості відтворення тексту дослідники навчають моделей на спеціалізованих текстових наборах даних, що містять правильно позначені приклади типографії, які допомагають AI краще зрозуміти формування літер, вирівнювання та інтервали. Текстове маскування також є ефективною технікою, коли для тексту під час генерації зображення залишаються порожні ділянки, дозволяючи здійснювати чистішу інтеграцію під час постобробки.
Відсутність контролю над виходом
Хоча результати можуть бути візуально вражаючими, суттєва обмеження генерації зображень AI полягає у відсутності точного контролю над кінцевим виходом. Користувачі можуть боротися з направленням моделі до конкретних стилів, забезпечення реалізму або тонкими деталями. Інші поширені помилки включають несподівані елементи у сцені, розбиваючі атмосферу кольори та несумісність макету. На відміну від людських художників, які регулюють з наміром, AI діє ймовірнісно, іноді даючи несподівані або нежадані результати.
Механізми контролю, такі як ControlNets та LoRas, дозволяють користувачам умовити структуру через позу, глибину або керівництво країв. Для більш точного художнього спрямування користувачів можуть суттєво покращити узгодженість у художньому напрямку, навчаючи спеціальні моделі на конкретних стилях. Посилання на конкретне зображення через генерацію зображення до зображення допомагає підтримувати актуальність виходу.
Інструменти маскування та заповнення дозволяють редагувати окремі частини зображення без впливу на решту. Інструменти постобробки, такі як збільшувачі та покращувачі, можуть додати остаточну полірку до виходів AI, підвищуючи роздільну здатність та ясність.
В цілому, AI ще не розвинула більш складного та нюансованого тлумачення запитів — це залишається одним із центральних викликів для підтримання контролю. Багато моделей схильні перебільшувати інструкції, намагаючись витягнути глибокі або шаруваті значення, де їх немає. Хоча це звучить розумно, навіть детальний запит може давати непередбачувані результати. Наприклад, AI може підкреслювати чи вигадувати несподівані елементи на основі асоціацій, які вона вивчила. Це збільшує складність створення запитів, вимагаючи від користувачів адаптуватися до того, як “думає” модель (що не завжди інтуїтивно) та витрачати більше часу на експерименти з формулюванням, щоб досягти баженого результату.
Остаточні думки
Поняття, як AI інтерпретує візуальні дані — і визнання, де вона схильна спотикатися — дозволяє робити розумніші вибори у написанні запитів, застосуванні ефективних стратегій розв’язання проблем та вибору правильних інструментів для роботи навколо помилок генерації. Насамкінець, це надає користувачам можливість працювати з AI як з творчим партнером, а не покладатися на удачу чи вважати технічні обмеження перешкодами для створення придатного контенту, який точно відображає бачення творця.












