Штучний інтелект
Три виклики, що стоять перед стабільною дифузією

Реліз стабільної дифузії stability.ai за кілька тижнів до цього може бути одним з найбільш значущих технологічних відкриттів з часів DeCSS у 1999 році; це, безумовно, найбільша подія в галузі генерації зображень штучним інтелектом з 2017 року, коли код глибоких фейків був скопійований на GitHub і розгалужений у те, що стало DeepFaceLab і FaceSwap, а також програмне забезпечення для потокової трансляції глибоких фейків у режимі реального часу DeepFaceLive.
На одному вдиху, розчарування користувачів через обмеження контенту у API синтезу зображень DALL-E 2 були відкинуті, оскільки з’ясувалося, що фільтр NSFW у Стабільній дифузії можна вимкнути, змінивши одну лінію коду. Порноорієнтовані спільноти Стабільної дифузії на Reddit з’явилися майже одразу, і були швидко вилучені, тоді як розробник і спільнота користувачів розділилися на офіційні та NSFW-спільноти на Discord, а Twitter почав заповнюватися фантастическими творами Стабільної дифузії.
На даний момент кожен день приносить якісь неймовірні інновації від розробників, які прийняли систему, з плагінами та сторонніми додатками, які швидко пишуться для Krita, Photoshop, Cinema4D, Blender та багатьох інших платформ застосунків.
Тим часом, promptcraft – тепер професійне мистецтво ‘шептання штучного інтелекту’, яке може стати найкоротшим варіантом кар’єри після ‘Філофакс-байндера’ – вже комерціалізується, тоді як раннє монетизування Стабільної дифузії відбувається на рівні Patreon, з гарантією більш складних пропозицій, які мають з’явитися, для тих, хто не бажає орієнтуватися в Conda-інсталляціях вихідного коду або прескриптивних фільтрах NSFW веб-імплементацій.
Темп розвитку та вільне відчуття дослідження з боку користувачів відбувається з такою дезорієнтуючою швидкістю, що важко бачити далеко вперед. По суті, ми ще не знаємо точно, з чим ми справляємося, або яких обмежень чи можливостей може бути.
Все ж таки, давайте розглянемо три з тих, що можуть бути найбільш цікавими та складними перешкодами для швидко створеної та швидко зростаючої спільноти Стабільної дифузії, щоб подолати їх.
1: Оптимізація Tile-Based Pipelines
Відображаючи обмежені апаратні ресурси та жорсткі обмеження на роздільну здатність тренувальних зображень, здається, ймовірно, що розробники знайдуть обходи для покращення як якості, так і роздільної здатності виходу Стабільної дифузії. Багато з цих проектів будуть полягати в тому, щоб використати обмеження системи, наприклад її вбудовану роздільну здатність всього 512×512 пікселів.
Як завжди буває з ініціативами комп’ютерного зору та синтезу зображень, Стабільна дифузія була тренована на квадратних зображеннях, у цьому випадку перепробованим до 512×512 пікселів, щоб джерельні зображення могли бути регуляризовані та вміщені в обмеження GPU, які тренували модель.
Отже Стабільна дифузія ‘думає’ (якщо вона думає взагалі) у термінах 512×512 пікселів, і, безумовно, у квадратних термінах. Багато користувачів, які зараз досліджують межі системи, повідомляють, що Стабільна дифузія дає найнадійніші та найменш глючеві результати при цій досить обмеженій пропорції сторін (див. ‘адресування крайнощів’ нижче).
Хоча різні реалізації містять апскейлінг через RealESRGAN (і можуть виправляти погано відтворені обличчя через GFPGAN), кілька користувачів зараз розробляють методи для розділення зображень на секції 512×512 пікселів та шиття цих зображень разом, щоб утворити більші композитні твори.
…












