заглушки Проектування зміни клімату на фотографіях за допомогою генеративних змагальних мереж - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Проектування зміни клімату на фотографіях за допомогою генеративних змагальних мереж

mm
оновлений on

Команда дослідників із Канади та США розробила метод машинного навчання для накладення катастрофічних наслідків зміни клімату на реальні фотографії за допомогою Generative Adversarial Networks (GAN) з метою зменшення «дистанціювання» – наш нездатність ставитися до гіпотетичних або абстрактних сценаріїв зміни клімату.

ClimateGAN оцінює геометрію за розрахованою картою глибини перед додаванням відбивної здатності на накладену водну поверхню. Джерело: https://arxiv.org/pdf/2110.02871.pdf

ClimateGAN оцінює геометрію за розрахованою картою глибини перед додаванням відбивної здатності на накладену водну поверхню. Джерело: https://arxiv.org/pdf/2110.02871.pdf

Команда проект, Під назвою КліматГАН, є частиною ширшої дослідницької роботи з розробки інтерактивного середовища, де користувачі можуть досліджувати прогнозовані світи, які постраждали від повеней, екстремальної спеки та інших серйозних наслідків зміни клімату.

Говорячи про мотивацію ініціативи, дослідники стверджують:

«Зміна клімату є серйозною загрозою для людства, і дії, необхідні для запобігання її катастрофічним наслідкам, включають зміни як у виробленні політики, так і в індивідуальній поведінці. Однак для вжиття заходів необхідно розуміти наслідки зміни клімату, навіть якщо вони можуть здаватися абстрактними та далекими.

«Прогнозування потенційних наслідків екстремальних кліматичних явищ, таких як повені у знайомих місцях, може допомогти зробити абстрактні наслідки зміни клімату більш конкретними та спонукати до дій».

Основна мета ініціативи полягає в тому, щоб увімкнути систему, в якій користувач може ввести свою адресу (або будь-яку адресу) і переглянути версію відповідного зображення, яке постраждало від зміни клімату, з Google Street View. Однак алгоритми трансформації, що лежать в основі ClimateGAN, вимагають певних приблизних знань про висоту елементів на фотографії, які не включені в метадані, які Google надає для перегляду вулиць, і тому отримання такої оцінки алгоритмічно залишається проблемою, що триває.

Дані та архітектура

ClimateGAN використовує неконтрольований конвеєр трансляції зображення в зображення з двома фазами: маскувальний шар, який оцінює, де на цільовому зображенні теоретично може існувати рівна поверхня води; і модуль Painter для реалістичного відтворення води в межах встановленої маски та враховує відбивну здатність решти не затемненої геометрії над ватерлінією.

Архітектура для ClimateGAN. Вхідні дані проходять через спільний кодувальник у триетапний процес маскування перед тим, як передаватись до модуля Painter. Дві мережі навчаються незалежно і працюють лише в тандемі під час створення нових зображень.

Архітектура для ClimateGAN. Вхідні дані проходять через спільний кодувальник у триетапний процес маскування перед тим, як передаватись до модуля Painter. Дві мережі навчаються незалежно і працюють лише в тандемі під час створення нових зображень.

Більшість навчальних даних було обрано з Міські пейзажі та Мапілярний набори даних. Однак, оскільки наявних даних для зображень повеней відносно мало, дослідники об’єднали наявні доступні набори даних із новим «віртуальним світом», розробленим за допомогою ігрового механізму Unity3D.

Сцени з віртуального середовища Unity3D.

Сцени з віртуального середовища Unity3D.

Світ Unity3D містить приблизно 1.5 км рельєфу та включає міські, приміські та сільські райони, які дослідники «затопили». Це дозволило генерувати зображення «до» і «після» для отримання додаткової правдивості для системи ClimateGAN.

Блок Masker адаптований до 2018 року АДВЕНТ код для навчання, додаючи додаткові дані відповідно до висновків французької дослідницької ініціативи 2019 року DADA. Дослідники також додали декодер сегментації, щоб надати блоку Masker додаткову інформацію щодо семантики вхідного зображення (тобто позначену інформацію, яка позначає домен, наприклад «будівлю»).

Декодер Flood Mask розраховує можливу ватерлінію та працює на основі надзвичайно популярного NVIDIA СПАДА рамки для малювання.

Разом із семантичною сегментацією (третій стовпець) інформація карти глибини дає змогу окреслити геометрію на фотографії, забезпечуючи орієнтир для країв «повені». Це можна зробити через процеси машинного навчання, хоча така інформація все частіше включається в датчики мобільних пристроїв споживчого рівня. У нижньому рядку ми бачимо, що архітектура ClimateGAN успішно відтворила «затоплену» версію оригінальної фотографії, навіть якщо на проміжних етапах не вдалося точно зафіксувати геометрію складної сцени.

Натисніть, щоб збільшити. Разом із семантичною сегментацією (третій стовпець) інформація карти глибини дає змогу окреслити геометрію на фотографії, забезпечуючи орієнтир для країв «повені». Це можна зробити через процеси машинного навчання, хоча така інформація все частіше включається в датчики мобільних пристроїв споживчого рівня. У нижньому рядку ми бачимо, що архітектура ClimateGAN успішно відтворила «затоплену» версію оригінальної фотографії, навіть якщо на проміжних етапах не вдалося точно зафіксувати геометрію складної сцени.

Хоча дослідники використовували NVIDIA ГауГАН, що підтримується SPADE, для модуля Painter необхідно було обумовити GauGAN на виході Masker, а не на узагальненій семантичній карті сегментації, як це відбувається при звичайному використанні, оскільки зображення потрібно було трансформувати відповідно до ватерлінії окреслення, а не підлягати широким загальним трансформаціям.

Оцінка якості

Показники для оцінки якості отриманих зображень були полегшені шляхом позначення тестового набору із 180 зображень Google Street View різних типів, включаючи міські сцени та більш сільські зображення з різноманітних географічних місць. Зображення вручну позначені як не можна-заливати, обов'язково залити та може бути затоплено.

Це дозволило сформулювати три метрики: коефіцієнт помилок (зони прогнозування за розміром у трансформованому зображенні), F05 Рахунок та когерентність країв. Для порівняння дослідники перевірили дані попередніх моделей перекладу зображення в зображення (IIT), в тому числі InstaGAN, CycleGAN та MUNIT.

Під час користувальницьких тестів було встановлено, що ClimateGAN досягає вищого ступеня реалістичності, ніж п’ять конкуруючих архітектур IIT. Синій колір означає, наскільки користувачі віддають перевагу ClimateGAN досліджуваному альтернативному методу.

Під час користувальницьких тестів було встановлено, що ClimateGAN досягає вищого ступеня реалістичності, ніж п’ять конкуруючих архітектур IIT. Синій колір означає, наскільки користувачі віддають перевагу ClimateGAN досліджуваному альтернативному методу.

Дослідники визнають, що відсутність даних про висоту в вихідних зображеннях ускладнює довільне накладання висоти ватерлінії на зображення, якщо користувач хоче трохи збільшити «фактор Роланда Еммеріха». Вони також визнають, що наслідки повені надмірно обмежені зоною затоплення, і мають намір дослідити методи, за допомогою яких кілька рівнів затоплення (тобто після спаду початкового повені) можна додати до методології.

Код ClimateGAN був доступний на GitHubразом із додатковими прикладами відтворених зображень.

В іншому прикладі, завдяки присутності GitHub для проекту, смог додається до зображення міста у спосіб, який буде знайомий більшості практиків VFX – карта глибини використовується як різновид відступаючої «білої маски», так що щільність смогу/туману зростає на відстані, охопленій фотографією. Джерело: https://github.com/cc-ai/climategan

В іншому прикладі, завдяки присутності GitHub для проекту, смог додається до зображення міста у спосіб, який буде знайомий більшості практиків VFX – карта глибини використовується як різновид відступаючої «білої маски», так що щільність смогу/туману зростає на відстані, охопленій фотографією. Джерело: https://github.com/cc-ai/climategan