Anderson의 관점

AI를 사용하여 실제 사진을 찍기 전에 개선하는 방법

Published February 26, 2026

Updated April 25, 2026

Martin Anderson

Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

GenAI를 사용하여 사진을 찍은 후 수정하는 대신, 연구자들은 사용자가 이동하고, 포즈를 취하고, 사전 지식이 있는 사진을 찍기 전에 샷을 구성하는 방법을 알려주는 시스템을 훈련시켰습니다. 이는 기억에 남는 사진이 무엇인지에 대한 연구된 지식을 사용합니다.

사진을 찍은 후 수정하는 것이 시간이 지남에 따라 더 쉬워졌습니다. 제조업체와 기술 플랫폼은 사용자가 사진을 찍자마자 이미지를 변경할 수 있는 카메라 내 편집을 제공하기 시작했습니다. 이러한 종류의 인기 시스템에는 Google의 대화형 편집과 Samsung의 생성 편집이 포함됩니다.

그러나 ‘진정성’을 AI 개선된 결과보다 선호하는 새로운 트렌드는 이러한 시스템을 대상으로 하는 많은 소비자가 ‘변경된’ 사진을 AI 쓰레기로 간주하게 할 수 있습니다.

이것이 Google이 Gemini에 정보를 입력한 AI 훈련된 ‘카메라 코치’를 만들게 된 이유일 수 있습니다. 이는 사진을 찍는 동안 직접적인 지시를 제공할 수 있습니다:

Google의 카메라 코치가 사용자에게 사진을 다시 구성하는 방법을 알려주고 다른 기본적인 조언을 제공합니다. 출처

이 시스템은 사적인 시스템으로, 온라인에서 거의 정보가 없는 것으로 보입니다. 카메라 코치는 Gemini를 사용하여 사용자에게 프레임을 개선하는 방법을 알려주거나 작은 자세 변경(예: 더 가까이 함께 이동하거나 카메라를 직접看着)을 알려주는 것으로 보입니다.

따라서 누구에게나 알 수 있듯이, 이 제품은 Gemini의 훈련 데이터에 기여한 수백만 개의 업로드된 콘텐츠 데이터 포인트에 따라 중간으로 구성으로 밀어붙입니다. 이 의미에서 업로드한 사용자는 불만족스러운 샷을 거부하고 좋아하는 것을 업로드함으로써 AI의 校正을 만들었습니다. 이것은 사실적으로 무료 형태의 데이터 큐레이션입니다!

그러나 구성이 평균화된 사진은 반드시 기억에 남는 사진과 같은 미적 가치나_viewer-impact을 갖지 않을 수 있습니다.

‘치즈!’와 3분의 1 규칙을 넘어서

이 목적으로, 그리고 더 접근하기 쉬운 플랫폼을 위한 시스템으로, 이탈리아의 새로운 연구는 사진이 기억에 남는 이유에 대한 이전 지식을 기반으로 하는 Coach 스타일 시스템을 제공합니다:

저자의 새로운 시스템에서 조언의 다양한 예. 출처

위의 예에서, 우리는 카메라 코치와 같은 구성 중심 AI가 제공할 수 없는 조언을 제공하는 저자의 새로운 시스템 – MemCoach이라고 불리는 시스템에서 조언을 제공합니다. 첫 번째(가장 왼쪽) 경우, 헤드 드레스를 제거하는 조언은 특히 의심스럽습니다. 두 번째 사진에서는 일반적인 상황(예: 바닥에 누운 젊은 여자의 ‘예술적인’ 사진)에서 어떤 맥락에서 전통적인 구성 AI가 끌어갈 수 있는지 상상하기 어렵습니다.

기억에 남는 사진의 핵심 이해는 MemCoach 튜터 애플리케이션에서 표현되는 MemFeed라고 하는 피드백을 제공하는 것을 기반으로 합니다. 또한 PPR10K 데이터 세트를 기반으로 하는 벤치마크(제목 MemBench)가 있습니다.

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency, 데이터 세트의 다양한 샘플. 상단 행은 원본 이미지를 표시하고, 하단 행은 전문가가 리터치한 버전과 해당 인간 영역 마스크를 표시합니다. 원본 사진은 시점, 배경, 조명 및 카메라 설정에서 크게 다르지만, 리터치된 결과는 시각적 품질이 개선되고 각 그룹 내에서 일관성이 더 강합니다. 출처

이 논문은 사진에서 기억에 남는 것이 정량화될 수 있으며, 주관적인 판단의 등록이 아니라는 것을 관찰합니다. 또한 저자들은 이 속성이 사진(여러 작업에서)과 비디오(여러 작업에서)에서 모두 확인되었다고 주장합니다.

새로운 논문은 기억에 남는 사진을 찍는 방법? 사용자에게 조언적인 피드백을 제공함으로써라고 제목이 붙여졌으며, 이탈리아의 트렌토 대학교, 피사 대학교, 브루노 케슬러 재단의 4명의 연구자로부터 나왔습니다. 동반 프로젝트 페이지는 다음 달(2026년 3월)에 GitHub 코드와 Hugging Face 호스팅 데이터가 제공될 것이라고 제안합니다.

방법

연구자들은 Gemini에 기반한 훈련된 예측기를 사용하여 각 이미지에 기억에 남는 점수를 매기고, 각 장면 내에서 사진을 기억에 남는 순으로 랭크했습니다. 그런 다음 각 장면에서 가장 기억에 남는 사진과 가장 기억에 남지 않는 사진을 짝지어 조언을 생성했습니다:

MemBench 구축 및 평가 개요. 상단 행은 데이터 파이프라인을 표시하고, 이미지 그룹핑 및 기억에 남는 점수 예측, 랭킹 및 기억에 남는 조언 생성을 표시합니다. 하단 행은 평가를 표시하고, 편집 기반 기억에 남는 점수 향상과 복잡도 점수를 통해 피드백 품질을 측정합니다.

각 쌍에 대해, 자연어 설명이 InternVL3.5 모델을 사용하여 생성되어 기억에 남지 않는 버전과 기억에 남는 버전 사이의 차이를 설명했습니다. 이러한 설명은 기억에 남는 피드백 시스템에 대한 훈련 신호를 구성했습니다.

Google의 카메라 코치와 같은 논리의 반대로, 연구자들은 더 미묘한 해석을 찾고자 했습니다:

‘사후 수정에 중점을 둔 계산 사진 조정(예: “이미지를 밝게 만듦”)과는 달리, 우리는 사용자가 더 좋은 샷을 위해 즉시 취할 수 있는 의미 있는 동작에 중점을 둡니다. 예를 들어, “서로를 향해 서라”.’

최종 MemBench 컬렉션에는 약 10,000개의 이미지로 구성된 1,570개의 장면이 포함되어 있으며, 각 장면당 평균 6.5개의 이미지가 있습니다. 저자들이 생성한 워드 클라우드(이미지 아래 참조)는 데이터 세트에 다양한 의미 범주가 포함되어 있음을 시사합니다:

MemBench의 가장 빈번한 용어를 나타내는 워드 클라우드.

원본 사진은 평균 기억에 남는 점수 0.63을 보였으며, 같은 장면에서 가장 기억에 남는 샷은 0.51에서 1.0까지였으며, 두 그룹 사이에 겹침이 있었습니다:

각 장면 내에서 가장 기억에 남지 않는 이미지와 가장 기억에 남는 이미지의 기억에 남는 점수 분포 비교.

조언은 7개의 단어로 된 짧은 노트에서부터 주목할 만한 길이의 지침까지 다양했습니다. 각 조언은 GPT-5 Mini를 사용하여 작은 동작 유형으로 나뉘었습니다:

콘텐츠 단어로 측정된 피드백 길이 분포 및 카테고리 간 공존 빈도를 나타내는 코드 너비와 함께 원자적 하위 동작의 분류.

저자들은 대부분의 제안이 주제의 포즈에 중점을 두었으며, 의미 또는 장면 내용의 변경이 그 뒤를 따랐으며, 프레이밍은 종종 포즈와 관련이 있으며, 조명 조정은 종종 의미 변경과 관련이 있음을 관찰했습니다.

플럭스 캐피터

피드백이 기억에 남는 것을 증가시켰는지 여부를 평가하기 위해, 사용자 준수를 FLUX.1 Kontext 생성 모델을 사용하여 시뮬레이션했습니다. 이는 사진기として 사용되었습니다.

왼쪽의 이미지는 실제 이미지이고, 각 경우의 오른쪽 이미지는 Flux에 의해 생성되었으며, 노란색으로 표시된 프롬프트를 기반으로 생성되었습니다. 이러한 방식으로 프롬프트의 효과를 평가할 수 있었으며, 이는 MemCoach 프레임워크에 피드백을 제공하는 데 사용되었습니다.

원본 이미지와 편집된 이미지는 모두 기억에 남는 점수 예측기에 통과되어 편집된 버전이 더 높은 점수를 얻은 빈도(개선 비율)와 시작 이미지에 비해 얼마나 큰 가인이었는지(상대적 기억력)를 측정할 수 있었습니다.

기억에 남는 참고 조언과 유사성을 측정하기 위해 också 복잡도를 계산했으며, 80-20 분할을 적용하여 테스트는 훈련 중에 사용되지 않은 장면에서만 수행되었습니다.

MemCoach

MemCoach는 사진을 찍기 전에 수행할 수 있는 의미 있는, 즉각적인 지침에 중점을 둡니다. 예를 들어, 포즈를 조정하거나, 주제 간의 상호 작용을 변경하거나, 장면 요소를 수정하는 것입니다. MemCoach에서 제공하는 피드백은 7~102개의 콘텐츠 단어로 다양합니다. 기억에 남는 것은 단순한 구성적 조정보다 주제 구성과 내러티브 신호에 의해 더 많이 구동되는 것으로 보입니다:

MemCoach 파이프라인 개요, 기억에 남는 지침이 교사 MLLM에서 학생 응답과 결합되어 대조 데이터를 형성하고, 계층 간의 활성화 차이를 평균하여 기억에 남는 지침 벡터를 도출하며, 추론 시 학생 활성화를 향상된 기억에 남는 지향 피드백으로 이동시키는 데 사용됩니다.

테스트

테스트 단계에서 새로운 시스템에 대해 7개의 다중 모달 대규모 언어 모델(MLLM)이 사용되었습니다: Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; 및 LLaVA-OneVision-1.5. 또한 GPT-5 Mini는 폐쇄형 모델의 대표로 포함되었으며, 미학 전문 모델인 Q-Instruct와 AesExpert도 포함되었습니다. MLLM은 제로샷 오라클 및 교사 오라클로 작동했습니다.

InternVL3.5는 교사 모델과 학생 모델 모두에 사용되었습니다. MemBench 훈련 분할은 대조 예를 생성하는 데 사용되었습니다:

MemCoach 성능과 최신 다중 모달 모델의 비교, 교사 오라클, 미학 전문 모델 및 제로샷 기준선과 함께, 더 높은 개선 비율과 경쟁적인 상대적 기억력 및 가장 낮은 복잡도를 보여주며, 더 일관적이고 기억에 남는 피드백을 나타냅니다.

위의 표에서, MemCoach는 비교 모델보다 더 효과적인 기억에 남는 조언을 제공하는 것으로 보입니다. 또한 InternVL3.5 모델은 기억에 남는 것을 더 자주 높이고, GPT-5 Mini보다 5%의 개선 비율을 얻으며, 상대적 기억력에서 31.81%의 점프를 얻습니다.

또한 미학에 중점을 둔 시스템을 능가하며, 추가 훈련이 필요하지 않습니다. 더 낮은 복잡도는 또한 피드백이 인간의 기억에 남는 판단이 보상하는 동일한 언어 패턴을 따른다는 것을 시사합니다:

다양한 다중 모달 백본에서 기억에 남는 피드백을 개선하는 일반화 결과, 대부분의 모델에서 일관적으로 개선 비율과 상대적 기억력을 높이고 복잡도를 낮추는 MemCoach의 결과입니다.

추가 테스트(위의 표 참조)는 MemCoach가 모든 테스트된 다중 모달 백본에서 기억에 남는 피드백을 개선했으며, Qwen2.5VL과 LLaVA-OV에서 가장 큰 점프를 보이는 일관된 개선 비율과 상대적 기억력 증가를 나타냅니다.

질적 평가를 수행하여 MemCoach에서 생성된 피드백의 예를 분석했습니다. 여기서 원본 이미지, 자연어 제안 및 상상된 개선된 결과가 함께 검토되었습니다:

MemCoach에서 생성된 기억에 남는 피드백의 질적 예시. 각 트리플렛은 원본 이미지, 자연어 지침 및 결과 편집 이미지를 보여주며, 상대적 기억력(RM)은 측정된 변경을 나타냅니다. 지침은 포즈 및 시선 조정에서 의미 있는 개입(예: 객체 제거)까지 다양합니다.

이러한 결과에 대해 저자는 다음과 같이 말합니다:

‘예제는 모델이 제안하는 제안의 다양성을 강조하며, 포즈, 시선 방향, 손 위치의 세부적인 구성 조정에서 객체 제거 또는 얼굴 표정 변경과 같은 의미적 개입까지 다양합니다.’

‘피드백은 자연스럽게 해석 가능하며, 직접 수행할 수 있는 간결한 텍스트 지침(대부분 동사 “가져오기”, “서기”, “제거”)으로 표현되며, 기억에 남는 사진을 찍는 방법을 구두로 설명합니다.’

결론

Google의 폐쇄형 접근 방식의 방법론을 MemBench 프로젝트와 비교하는 것이 가장 흥미로울 것입니다. 특히 Google의 시스템의 미적 기준을 정의하는 데 사용된 핵심 표준, 참조 및 데이터베이스를 알기 위해입니다.

이러한 종류의 시스템의 부정적인 측면은 규모에 따라 일관된 표준을 시행할 위험이 있으며, 이는 결국 밈과 클리셰로 끝날 수 있습니다. 이것은 AI 대시 하이픈 논쟁과 유사하며, 여기서 ‘올바른’ 절차는 사용에서 약간 저주를 받았습니다.

* 저자의 인라인 인용문을 다른 곳에 표시되지 않은 경우 링크로 변환했습니다.

^†이 논문은 여기와 다른 여러 곳에서 ‘보충 자료’를 언급하지만, 저자는 이 자료를 논문, Arxiv 목록 또는 프로젝트 사이트에서 찾을 수 없습니다.

처음으로 2026년 2월 26일 목요일에 게시되었습니다.

Related Topics:AI Image Editing images photos

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

AI를 사용하여 실제 사진을 찍기 전에 개선하는 방법

Anderson의 관점

AI를 사용하여 실제 사진을 찍기 전에 개선하는 방법

‘치즈!’와 3분의 1 규칙을 넘어서

방법

플럭스 캐피터

최신 기술

MemCoach

테스트

결론

Unite.AI

AI를 사용하여 실제 사진을 찍기 전에 개선하는 방법

‘치즈!’와 3분의 1 규칙을 넘어서

방법

플럭스 캐피터

최신 기술

MemCoach

테스트

결론

You may like