Погляд Anderson
Використання штучного інтелекту для покращення реальних фотографій до їхнього зроблення

Натомість використовувати GenAI для виправлення фотографій після їхнього зроблення, дослідники створили систему, яка підказує, як рухатися, позувати та кадрувати знімок до того, як він буде зроблений, використовуючи знання про те, що робить фотографії пам’ятними.
Виправлення фотографій після їхнього зроблення стало простішим протягом деякого часу, оскільки виробники та технічні платформи все частіше пропонують редактори в камері, які дозволяють користувачам змінювати зображення одразу після їхнього зроблення. Популярні системи цього типу включають конверсаційну редакцію Google та генеративну редакцію Samsung, серед інших.
Однак, новий тренд, який віддає перевагу “автентичності” над результатами, покращеними за допомогою штучного інтелекту, може означати, що багато споживачів, на яких ці системи орієнтовані, починають вважати “змінені” фотографії відходами штучного інтелекту.
Можливо, це спонукало Google створити тренований штучний інтелект “тренер камери”, інформований Gemini, який здатний давати прямою інструкції для покращення фотографії під час її зроблення:

Тренер камери Google підказує користувачеві, як пере кадрувати фотографію, серед інших базових порад. Джерело
Будучи власницькою системою, і з практично нульовою інформацією, доступною в Інтернеті щодо неї, Тренер камери здається використовує Gemini, щоб допомогти користувачам покращити кадрування (див. зображення вище) або зробити незначні зміни в позі (наприклад, рухатися ближче один до одного або дивитися прямо в камеру).
Отже, наскільки можна судити, продукт штовхає композицію до медіани, мабуть, на основі мільйонів завантажених даних, які, ймовірно, внесли свій внесок у навчальні дані Gemini. У цьому сенсі завантажуючі користувачі створили калібрування штучного інтелекту, відхиляючи незадовільні знімки та завантажуючи ті, які їм подобаються – ефективний (і безкоштовний) формат кураторства набору даних!
Те ж саме стосується фотографій, які в середньому відрізняються за композицією, не обов’язково володіють тими ж естетичними цінностями або впливом на глядача, як фотографії, які пам’ятні.
Поза “Сир!” і правилом третин
У цьому напрямку, і для створення системи, яка була б більш доступною на різних платформах, нове дослідження з Італії пропонує систему типу Тренера, засновану на попередніх знаннях про те, що робить фотографії пам’ятними:

Розмаїтні приклади порад від нової системи авторів. Джерело
У прикладах вище ми бачимо поради, дані новою системою авторів – названою MemCoach – які важко уявити, що композиційно-орієнтований штучний інтелект, такий як Тренер камери, міг би надати. У першому (лівому) випадку порада видалити головний убір особливо підозріла; у другому зображенні важко уявити, яку загальну ситуацію традиційний штучний інтелект міг би витягнути з загальної ситуації (тобто “художнє” зображення молодої жінки, яка лежить на підлозі з закритими очима).
Основне розуміння про пам’ятність у фотографії, яке використовувалося для розробки тричастинної італійської системи, взято з різних попередніх робіт, включаючи 2015 виступ Що робить об’єкт пам’ятним?, і 2013 статтю Що робить фотографію пам’ятною?.
… (переклад продовжується згідно з вимогами)












