Взгляд Anderson

Использование ИИ для улучшения реальных фотографий до их съёмки

Published February 26, 2026

Updated April 25, 2026

Martin Anderson

Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

Вместо использования GenAI для исправления фотографий после их съёмки, исследователи обучили систему, которая подсказывает, как переместиться, позировать и кадрировать снимок заранее, используя изученные знания о том, что делает фотографии запоминающимися.

Исправление фотографий после съёмки стало проще с течением времени, поскольку производители и технологические платформы все чаще предлагают редактирование в камере, позволяющее пользователям изменять изображения сразу после их съёмки. Популярные системы этого типа включают конверсационное редактирование Google и генеративное редактирование Samsung, среди других.

Однако появляющаяся тенденция, которая отдает предпочтение “аутентичности” над результатами, улучшенными с помощью ИИ, может означать, что многие потребители, на которых нацелены такие системы, начинают рассматривать “измененные” фотографии как кашу ИИ.

Возможно, это вдохновило Google на создание обученной ИИ “камерного тренера”, информированного Gemini, который способен давать прямые инструкции для улучшения фотографии во время съёмки:

Камерный тренер Google подсказывает пользователю, как переформировать фотографию, среди других базовых советов. Источник

Будучи проприетарной системой, и с практически нулевой информацией, доступной в Интернете, Камерный тренер, по-видимому, использует Gemini для того, чтобы помочь пользователям улучшить кадрирование (см. изображение выше) или сделать незначительные изменения в позе (например, переместиться ближе друг к другу или смотреть прямо в камеру).

Итак, насколько можно судить, продукт толкает композицию к медиане, предположительно на основе миллионов загруженных данных, которые, вероятно, внесли свой вклад в обучающие данные Gemini. В этом смысле загружающие пользователи создали калибровку ИИ, отвергая неудовлетворительные снимки и загружая те, которые им нравятся – эффективный (и бесплатный) вид кураторства набора данных!

Тем не менее, фотографии, которые усреднены в плане композиции, не обязательно обладают теми же эстетическими ценностями или воздействием на зрителя, как фотографии, которые запоминаются.

За пределами “Сыра!” и правила третей

В этом направлении, и для создания системы, которая более доступна на разных платформах, новые исследования из Италии предлагают систему типа тренера, основанную на предварительных знаниях о том, что делает фотографии запоминающимися:

Разнообразные примеры советов от новой системы авторов. Источник

В примерах выше мы видим советы, данные новой системой авторов – называемой MemCoach – которые трудно представить, что композиционно-ориентированный ИИ, такой как Камерный тренер, мог бы предоставить. В первом (левом) случае совет удалить головной убор особенно сомнителен; во втором изображении трудно представить, какой контекст композиционно-ориентированный ИИ мог бы извлечь из общей ситуации (т.е. “художественного” изображения молодой женщины, лежащей на полу с закрытыми глазами).

Основное понимание о запоминаемости в фотографии, использованное для разработки трехчастной итальянской системы, основано на различных предыдущих работах, включая работу 2015 года outing Что делает объект запоминающимся?, и работу 2013 года paper Что делает фотографию запоминающейся?.

Из работы 2013 года Что делает фотографию запоминающейся?, представительные примеры хороших, средних и плохих фотографий в плане запоминаемости. Источник

Любой, как и я, с отрицательной датой рождения Unix, вероятно, узнает шаблон для “наименее запоминающихся изображений” (в правом верхнем углу изображения выше), из бесконечных вечеров слайд-шоу, которые проклинали наше детство. Как говорят авторы*:

‘Эти работы определили ключевые внутренние факторы, такие как присутствие людей, интерьерные сцены, или эмоциональные выражения, а не объекты и панорамные виды, а также внешние факторы, включая контекст и наблюдателя. ‘

Проект центрируется на “обратной связи о запоминаемости” (MemFeed), которая выражается в приложении-тренере MemCoach, и на эталоне (названном MemBench) на основе набора данных PPR10K.

Из работы PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency, разнообразные образцы из набора данных. Исходные фотографии сильно различаются по точки зрения, фону, освещению и настройкам камеры, тогда как результаты редактирования демонстрируют улучшенное качество изображения и более сильную последовательность внутри каждой группы. Источник

Авторы отмечают, что запоминаемость количественно определяема в фотографиях, а не является регистром субъективных суждений, и что это свойство было выявлено как для фотографий (в различных работах), так и для видео (в различных других).

Новая работа называется Как сделать запоминающуюся фотографию? Предоставление пользователям действенных советов, и исходит от четырех исследователей из Университета Тренто, Университета Пизы и Фонда Бруно Кесслера. Сопровождающая страница проекта предполагает, что код GitHub и данные, размещенные на Hugging Face, будут доступны в следующем месяце (март 2026).

Метод

Для создания набора данных MemBench из исходного набора данных PPR10K исследователи сгруппировали фотографии из одной и той же сцены и оценили каждое изображение по запоминаемости с помощью обученного предсказателя на основе CLIP фич. Затем они ранжировали фотографии внутри каждой сцены от менее к более запоминающимся и сопоставили их соответствующим образом:

Обзор конструкции и оценки MemBench. Верхний ряд изображает конвейер данных, от группировки изображений по сцене и предсказания запоминаемости до ранжирования фотографий и генерации осведомленной о запоминаемости обратной связи. Нижний ряд иллюстрирует оценку, измеряющую качество обратной связи через редактирование, основанное на приросте запоминаемости и оценку перплексии.

Для каждой пары были сгенерированы описания естественного языка с помощью модели InternVL3.5, чтобы объяснить видимые различия между менее запоминающейся версией и более запоминающейся версией; и эти описания составили обучающий сигнал для системы обратной связи о запоминаемости.

В отличие от логики, лежащей в основе Камерного тренера Google, исследователи искали более тонкий набор интерпретаций^†:

‘В отличие от вычислительной фотографии, корректирующей постфактум (например, “сделать изображение ярче”), мы фокусируемся на семантических действиях, которые пользователь может выполнить на лету для лучшего снимка, например, “Лицом к друг другу”.’

Окончательная коллекция MemBench состоит из около 10 000 изображений, сгруппированных в 1 570 сцен, в среднем 6,5 изображений для каждой сцены. Облако слов, сгенерированное авторами (см. изображение ниже), предполагает широкий спектр семантических категорий в наборе данных:

Облако слов наиболее частых терминов в MemBench.

Исходные фотографии в среднем имели оценку запоминаемости 0,63, тогда как наиболее запоминающиеся снимки из одной и той же сцены варьировались от 0,51 до 1,0, с заметным перекрытием между двумя группами:

Распределения оценок запоминаемости, сравнивающие наименее и наиболее запоминающиеся изображения внутри каждой сцены.

Обратная связь варьировалась от коротких семисловных заметок до заметно более длинных инструкций (слева, на изображении ниже). Каждый совет был затем разбит на небольшие типы действий с помощью GPT-5 Mini (справа, на изображении ниже):

Распределение длины обратной связи, измеренной в содержательных словах, и категоризация атомарных поддействий с аккордовыми ширинами, указывающими частоту совместного возникновения по категориям.

Авторы отмечают, что большинство предложений фокусировались на том, как была позирована модель, за которыми следовали изменения смысла или содержания сцены, а кадрирование часто было связано с позированием, а коррекция освещения часто была связана с семантическими изменениями.

Флукс-конденсатор

Для оценки того, увеличивается ли запоминаемость с помощью обратной связи, была смоделирована соблюдение пользователя с помощью генеративной модели FLUX.1 Kontext в качестве замены фотографа. Учитывая исходное изображение и текстовую обратную связь, была сгенерирована отредактированная версия Flux, имитирующая предложенные изменения:

Изображения слева являются реальными, из набора данных, и изображения справа (в каждом случае) созданы Flux на основе подсказки (в желтом, ниже). Таким образом, эффективность подсказок могла быть оценена без обширного участия человека. Это знание в конечном итоге попадет в рамки MemCoach, и фактически представляет собой рабочий процесс, который может итеративно улучшать систему такого типа (т.е. в конечном итоге с реальными, а не примерами Flux).

И исходные, и отредактированные изображения были затем переданы через предсказатель запоминаемости, что позволило измерить, как часто отредактированная версия достигала более высокого балла – обозначаемого как Коэффициент улучшения – и насколько большой был прирост относительно исходного изображения, обозначаемый как Относительная запоминаемость.

Аналогично, была измерена подобие обратной связи к запоминаемости, ориентированной на справочные советы, путем расчета перплексии против описаний, заданных вручную, и был применен разбиение 80–20 на обучение и тестирование на уровне сцены, так что тестирование проводилось только на сценах, которые не были использованы во время обучения.

Состояние искусства

Была протестирована осведомленность о запоминаемости текущих многомодальных крупномасштабных языковых моделей. Изображения из набора данных LaMem были показаны нескольким ведущим моделям, которые были попрослены сказать, является ли изображение запоминающимся. Оценка уверенности модели была затем сравнена с баллами, присвоенными человеческими зрителями в исходном исследовании:

Тесты, указывающие на то, что базовые многомодальные модели не отражают запоминаемость. Слева, ранговая корреляция Спирмена между предсказаниями модели и баллами LaMem, с согласием аннотаторов из LaMem, показанным для справки. Справа, коэффициент улучшения, достигнутый обратной связью без обучения, по сравнению с базовым редактированием, показывающий только незначительные приросты.

Практически не было найдено значимой корреляции с человеческими суждениями, и, несмотря на крупномасштабное предварительное обучение, авторы утверждают, что модели не отслеживают то, что люди постоянно помнят.

Примеры из набора данных LaMem. В верхнем левом углу мы также видим тепловую карту, изображенную для этого изображения. Источник

MemCoach

MemCoach фокусируется на семантических, выполняемых на лету инструкциях, которые можно выполнить до нажатия на затвор – например, регулировка позы, изменение взаимодействия между моделями или модификация элементов сцены. Обратная связь, предоставляемая MemCoach, варьируется от 7 до 102 содержательных слов. Запоминаемость, как утверждает статья,似乎 обусловлена больше конфигурацией модели и повествовательными сигналами, чем простыми композиционными корректировками:

Обзор конвейера MemCoach, в котором осведомленная о запоминаемости помощь от многомодальной модели учителя объединяется с нейтральными ответами ученика, чтобы сформировать контрастные данные; средние различия активаций по слоям используются для получения вектора управления запоминаемостью; и этот вектор вводится на этапе вывода для смещения активаций ученика к производству улучшенной, ориентированной на запоминаемость обратной связи, без дополнительного обучения.

Тесты

В фазе тестирования для новой системы было использовано семь многомодальных крупномасштабных языковых моделей (MLLMs): Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; и LLaVA-OneVision-1.5. Кроме того, был включен GPT-5 Mini в качестве представителя проприетарных, закрытых моделей, а также модели, специализирующиеся на эстетике, Q-Instruct и AesExpert. Модели MLLMs работали в качестве моделей без обучения и моделей-оракулов учителя.

InternVL3.5 был использован для обоих моделей учителя и ученика, с использованием обучающего разбиения MemBench для создания контрастных примеров:

Производительность MemCoach по сравнению с моделями MLLMs уровня состояния искусства через модели-оракулы учителя, модели, специализирующиеся на эстетике, и базовые модели без обучения, показывающая более высокий коэффициент улучшения и конкурентоспособную относительную запоминаемость, вместе с самой низкой перплексией, указывающей на более последовательную и ориентированную на запоминаемость обратную связь.

В таблице для первого теста (показанного выше) мы видим, что MemCoach, по-видимому, обеспечивает более эффективные советы о запоминаемости, чем любая из сравниваемых моделей – и модель InternVL3.5 с управлением увеличивает запоминаемость чаще и на более крупный масштаб, с 5% приростом коэффициента улучшения по сравнению с GPT-5 Mini и 31,81% скачком относительной запоминаемости над своей неуправляемой версией.

Он также превосходит системы, специализирующиеся на эстетике, несмотря на то, что не требует дополнительного обучения. Более низкая перплексия, утверждает статья, дальнейшим образом предполагает, что его обратная связь следует тем же лингвистическим закономерностям, которые человеческие суждения о запоминаемости склонны вознаграждать:

Результаты обобщения, показывающие, что MemCoach улучшает обратную связь, ориентированную на запоминаемость, на нескольких многомодальных задних концах, последовательно повышая коэффициент улучшения и относительную запоминаемость, а также снижая перплексию для большинства моделей.

Дополнительный тест (см. таблицу выше) указывает на то, что добавление MemCoach повысило обратную связь, ориентированную на запоминаемость, на каждом из протестированных многомодальных задних концов, с последовательными приростами коэффициента улучшения и наибольшим скачком, появляющимся для Qwen2.5VL и LLaVA-OV.

Была проведена качественная оценка, анализирующая примеры обратной связи MemCoach, в которых исходное изображение, естественно-языковая подсказка и воображаемый улучшенный результат были проанализированы бок о бок:

Качественные примеры обратной связи, ориентированной на запоминаемость, сгенерированные MemCoach. Каждый тройник показывает исходное изображение, естественно-языковую инструкцию и результирующее отредактированное изображение, с относительной запоминаемостью (RM), указывающей на измеренное изменение. Руководство варьируется от корректировки позы и взгляда до семантических вмешательств, таких как удаление объекта, иллюстрируя как успешные приросты, так и случаи, когда удаление необычных элементов снижает запоминаемость.

Из этих результатов авторы заявляют:

‘Примеры подчеркивают разнообразие предложений, которые модель предлагает, варьирующихся от тонких композиционных корректировок, таких как изменение направления взгляда, позы или положения руки, до семантических вмешательств, включающих удаление объекта или изменение выражения лица. ‘

‘Обратная связь естественно интерпретируема и действенна, выражена в кратких текстовых инструкциях (в основном включающих глаголы “Принести”, “Стоять”, “Удалить”), которые можно直接 реализовать, эффективно вербализируя, как сделать запоминающуюся фотографию.’

Заключение

Было бы наиболее интересно сравнить методологию закрытого подхода Google с проектом MemBench – не в последнюю очередь, чтобы узнать, какие центральные стандарты, справочные материалы и базы данных Google использовали для определения эстетических стандартов системы.

Отрицательным аспектом систем такого типа, открытых или закрытых, является то, что они рискуют навязать унифицированные стандарты, которые обречены стать мемами и клише – своего рода визуальным эквивалентом дебатов об ИИ-тире, где “правильная” процедура стала немного проклятой в повседневном использовании.

* Мое преобразование внутренних цитат авторов в гиперссылки, если ссылка не представлена где-либо еще в статье.

^†Статья ссылается здесь, как и в нескольких других местах, на “дополнительный материал”, который я не могу найти, ни из статьи, ни из основного списка Arxiv, ни со страницы проекта.

Опубликовано впервые в четверг, 26 февраля 2026 года