Andersonの視点

AIを使用して写真を撮る前に実写写真を改善する

Published February 26, 2026

Updated April 25, 2026

Martin Anderson

Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

GenAIを使用して写真を撮った後に修正するのではなく、研究者は、どのように動き、ポーズをとり、ショットをフレーミングするかを事前に教えるシステムを訓練しました。写真がどのように記憶に残るかについての研究された知識を使用して、記憶に残る写真を撮る方法についてユーザーに指示します。

写真を撮った後に修正することは、カメラやテクノロジー企業が増え続けており、ユーザーが写真を撮った直後に編集できるインカメラ編集機能を提供するようになってから、かなり簡単になりました。Googleの会話編集や、Samsungのジェネレーティブ編集などが人気のシステムです。

しかし、’本物性’をAIの改善された結果よりも優先する新しいトレンドにより、多くの消費者はこれらのシステムが対象とするものが’改変された’写真をAIスロップと見なすようになる可能性があります。

もしかしたら、これがGoogleがGeminiに基づいたAIトレーニング済み’カメラコーチ’を作成した理由かもしれません。カメラコーチは、写真を撮る最中に直接的な指示を提供できます。

Googleのカメラコーチは、ユーザーに写真を再構成する方法や他の基本的なアドバイスを教えます。 ソース

このシステムは、独自のシステムであり、オンラインでほとんど情報が利用できないため、カメラコーチはGeminiを利用して、ユーザーがフレーミングを改善したり、ポーズを少し変更したりするのに役立つようです。

これまでのところ、カメラコーチは、ユーザーが写真をアップロードしたデータポイントから学習したGeminiのトレーニングデータに基づいて、構成を中央値に向けて推進するようです。ここで、ユーザーは、満足のいく写真をアップロードし、不満足な写真を拒否することで、AIの校正を行ったのです。これは、データキュレーションの無料で効果的な方法です。

しかし、構成が’平均化’されている写真は、必ずしも同じ美的価値や視聴者の印象を持ちません。

‘チーズ!’と三分のルールを超えて

この目的のために、イタリアからの新しい研究は、写真が心に残ることの前提知識に基づいたコーチスタイルのシステムを提供しています。

著者たちの新しいシステムからのアドバイスの例。 ソース

上記の例では、著者たちの新しいシステム、MemCoachによって提供されるアドバイスを示しています。最初の例(左端)では、ヘッドドレスを取り除くというアドバイスは特に重要です。2番目の写真では、一般的な状況(例えば、床に横たわっている若い女性の’アーティスティック’な写真)から、従来の構成AIがどのようなコンテキストを引き出せるかは難しいです。

写真の記憶に残ることについての核心的な理解は、2015年の論文物体が記憶に残るものにするにはや、2013年の論文写真が記憶に残るものにするにはなど、さまざまな以前の研究から得られました。

2013年の論文「写真が記憶に残るものにするには」から、記憶に残る写真の良い、平均的、悪い例。 ソース

ユニックスの誕生日が負の場合、誰でも私のように、子供の頃に呪われた無数のスライドナイトから、上記の画像(右上)の’最も記憶に残らない画像’のテンプレートを認識できるでしょう。著者は次のように述べています。

‘これらの研究では、人物の存在、室内シーン、または感情的な表情など、物体やパノラマビューではなく、内在的な要因と、観察者などの外在的な要因が重要であることを示しました。 ‘

このプロジェクトは、MemFeedと呼ばれる記憶に残るフィードバックに中心があり、MemBenchと呼ばれるベンチマークに基づいています。

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistencyからのサンプル。上段はオリジナル画像、下段は専門家によるリタッチされたバージョンと対応するヒューマンリージョンマスク。オリジナルの写真は視点、背景、照明、カメラ設定が幅広いですが、リタッチされた結果は視覚的な品質が向上し、グループ内での一貫性が強いです。ソース

この論文では、写真における記憶に残ることは、主観的な判断ではなく、量化可能であると述べられています。著者はさらに、記憶に残るという特性は、写真(さまざまな研究など)とビデオ(さまざまな研究など)の両方で同定されています。

新しい論文は、記憶に残る写真を撮るにはどうすればよいのか？ユーザーを実行可能なフィードバックでエンパワーメントするというタイトルで、トレント大学、ピサ大学、ブルーノ・ケスラー財団の4人の研究者から来ています。プロジェクトのページによると、GitHubのコードとHugging Faceがホストするデータは、来月(2026年3月)に利用可能になる予定です。

方法

MemBenchデータセットをPPR10Kポートレートデータセットからキュレーションするために、研究者は写真をシーンごとにグループ化し、CLIP 特徴に基づく訓練済み予測器を使用して、各画像の記憶に残るスコアを付与しました。次に、各シーン内の写真を記憶に残る順にランク付けし、ペアにしました。

MemBenchの構築と評価の概要。上段はデータパイプラインを示し、画像をシーンごとにグループ化し、記憶に残るスコアを予測し、写真をランク付けし、記憶に残るアクションフィードバックを生成する。下段は評価を示し、編集ベースの記憶に残るスコアの向上と困惑度スコアを測定する。

各ペアについては、InternVL3.5モデルを使用して、記憶に残らないバージョンと記憶に残るバージョンの違いを説明する自然言語の説明が生成されました。これらの説明は、記憶に残るフィードバックシステムのトレーニングシグナルを構成します。

Googleのカメラコーチを裏付けるような論理とは対照的に、研究者は、より繊細な解釈のセットを求めました。

‘計算機写真の調整は事後的な修正(例:「画像を明るくする」)に焦点を当てているのに対し、私たちは、ユーザーがより良いショットのために実行できる、例えば「互いに向かい合う」などのセマンチックアクションに焦点を当てています。 ‘

最終的なMemBenchコレクションは、約10,000枚の画像で構成されており、1,570のシーンにグループ化されており、シーンごとに平均6.5枚の画像があります。著者が生成したワードクラウド(下の画像を参照)は、データセットに幅広いセマンチックカテゴリがあることを示しています。

MemBenchの最も頻繁な用語のワードクラウド。

ソース写真の記憶に残るスコアは平均0.63でしたが、同じシーンの最も記憶に残るショットは0.51から1.0の範囲で、2つのグループに重なりがありました。

各シーン内の最も記憶に残る画像と最も記憶に残らない画像の記憶に残るスコアの分布。

フィードバックは、7語の短いノートから、特に長い指示(下の画像の左側)まで幅広いものでした。各アドバイスは、GPT-5 Miniを使用して、小さなアクションタイプに分解されました(下の画像の右側)。

コンテンツワードで測定されたフィードバックの長さの分布と、コーオシーション頻度を示すコード幅でカテゴリ化された原子サブアクション。

著者は、ほとんどの提案が、主題のポーズの変更、次に意味やシーンのコンテンツの変更、フレーミングはポーズにしばしば結びついており、照明の調整はセマンチックな変更にしばしば結びついていたことを指摘しています。

フラックスキャパシター

記憶に残るスコアがフィードバックによって増加したかどうかを評価するために、FLUX.1 Kontextジェネレーティブモデルを使用して、ユーザーのコンプライアンスをシミュレートしました。ソース画像とテキストフィードバックが与えられた場合、Fluxは提案された変更をシミュレートした編集済みバージョンを生成しました。

左側の画像は実際のもので、右側の画像(各ケース)は、黄色の下のプロンプトに基づいてFluxによって生成されました。こうして、プロンプトの有効性を、広範な人間の関与なしに評価することができます。これは、最終的にMemCoachフレームワークにフィードバックする知識であり、実際にはこのようなシステム(つまり、最終的には実世界の例ではなくFluxの例)を反復的に改善するワークフローを表します。

オリジナルの画像と編集済みの画像の両方が記憶に残る予測器を通過し、編集済みバージョンがより高いスコアを達成する頻度と、開始画像からの相対的な改善の程度を測定することができました。

記憶に残る参考アドバイスとの類似性も、困惑度を計算することで評価され、80-20の分割がシーンレベルで適用され、テストは訓練中に使用されなかったシーンのみで実行されました。

現状

現在の多モーダル大規模言語モデルの記憶に残る認識度をテストしました。LaMemデータセットの画像をいくつかのトップモデルの前に提示し、画像が記憶に残るかどうかを尋ね、モデルの信頼度推定値を人間の視聴者によるオリジナルの研究でのスコアと比較しました。

基準モデルの記憶に残るスコアとLaMemのグラウンドトゥルーススコアの間のスピアマン順位相関と、編集ベースラインに対するゼロショットフィードバックの改善率。

ほとんどの意味のある相関は見つからず、著者は、大規模な事前トレーニングにもかかわらず、モデルは人間の判断と一致しなかったと主張しています。

LaMemデータセットの例。上左には、画像のヒートマップも示されています。 ソース

MemCoach

MemCoachは、シャッターを押す前に実行できる、セマンチックで即時の指示に焦点を当てています。例えば、ポーズを調整したり、被写体間の相互作用を変更したり、シーン要素を変更したりすることがあります。MemCoachによって提供されるフィードバックは、7語から102語のコンテンツワードまで変化します。記憶に残ることは、論文によれば、単純な構成の調整よりも、被写体の構成や物語的ヒントによって推進されるようです。

MemCoachパイプラインの概要。記憶に残るガイダンスを教師MLLMから学生の中立的な応答とペアにして、対比データを形成し、レイヤー間のアクティベーションの差を平均して記憶に残るステアリングベクトルを導出し、推論時に学生のアクティベーションを記憶に残るフィードバックの生成に向けてシフトさせる。

テスト

テスト段階では、7つの多モーダル大規模言語モデル(MLLM)が使用されました。Qwen2.5V.L、InternVL3_5-8B、Idefics3-8B、LLaVA-OneVision-1.5などです。さらに、GPT-5 Miniが代表的なプロプライエタリ、クローズドソースモデルとして含まれ、美学に特化したQ-InstructとAesExpertモデルも含まれました。MLLMは、ゼロショットと教師オラクルとしてさまざまに動作しました。

InternVL3.5は、教師モデルと学生モデルとして使用され、MemBenchの訓練分割が対比データの作成に使用されました。

MemCoachのパフォーマンスを、教師オラクル、美学に特化したモデル、ゼロショットベースラインと比較し、改善率と相対的な記憶に残るスコアが高いことを示し、さらに困惑度が低いことを示している。

上の表では、MemCoachが比較モデルよりも効果的な記憶に残るアドバイスを提供していることがわかります。また、ステアードされたInternVL3.5モデルは、記憶に残るスコアをより頻繁に、かつより大きな量で向上させています。GPT-5 Miniよりも5%の改善率が高く、ステアードされていないバージョンよりも31.81%の相対的な記憶に残るスコアが高いです。

また、美学に特化したシステムを上回り、さらにトレーニングは必要ありません。低い困惑度は、さらに、MemCoachのフィードバックが人間の記憶に残る判断に従う言語パターンに従っていることを示唆しています。

一般化の結果、MemCoachが複数の多モーダルバックボーンで記憶に残るフィードバックを改善し、改善率と相対的な記憶に残るスコアを一貫して向上させ、ほとんどのモデルで困惑度を低減させている。

さらに、MemCoachのフィードバックの質的な評価が行われ、ソース画像、自然言語の提案、想像上の改善された結果を横に並べた例が分析されました。

MemCoachによって生成された記憶に残るフィードバックの質的な例。各トリプレットは、ソース画像、自然言語の指示、そして結果の編集済み画像を示し、相対的な記憶に残るスコア(RM)は、測定された変化を示しています。指示は、ポーズや視線の調整から、物体の除去などのセマンチックな介入まで、記憶に残るスコアの向上を示しています。

これらの結果について、著者は次のように述べています。

‘例は、モデルが提案するアドバイスの多様性を示しています。例えば、視線の方向、ポーズ、手の位置の微妙な調整から、物体の除去や顔の表情の変更などのセマンチックな介入まで。 ‘

‘フィードバックは、自然に解釈可能で、実行可能です。動詞「Bring」、「Stand」、「Remove」などのテキスト指示で表現され、記憶に残る写真を撮る方法を直接実行することができます。 ‘