Andersonův úhel

Použití AI pro zlepšení skutečných fotografií předtím, než jsou pořízeny

Published February 26, 2026

Updated April 25, 2026

Martin Anderson

Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

Místo použití GenAI pro opravu fotografií po té, co je vyfotíte, výzkumníci vyškolili systém, který vám řekne, jak se pohybovat, pózovat a komponovat snímek předem, pomocí znalostí o tom, co dělá fotografie pamětihodné.

Opravování fotografií poté, co byly pořízeny, se stalo mnohem jednodušší v posledních letech, protože výrobci a technologické platformy stále více nabízejí editaci v rámci fotoaparátu, která umožňuje uživatelům měnit obrázky okamžitě po jejich pořízení. Mezi populární systémy tohoto typu patří konverzační editace od Google a generativní editace od Samsungu, mezi ostatními.

Nicméně, rostoucí trend, který upřednostňuje “autenticitu” před výsledky vylepšenými pomocí AI, může znamenat, že mnoho spotřebitelů, na které jsou tyto systémy zaměřeny, začne považovat “upravené” fotografie za AI odpad.

Možná to je to, co inspirovalo Google k vytvoření AI-vyškoleného “foto trenéra” informovaného Gemini, který je schopen poskytovat přímé instrukce pro zlepšení fotografie během procesu pořizování:

Google’s Camera Coach tells the user how to reframe a photo, among other basic pieces of advice. Source

Jelikož se jedná o proprietární systém a prakticky neexistuje žádná informace o něm online, Camera Coach zdá se, že využívá Gemini k pomoci uživatelům zlepšit kompozici (viz obrázek výše) nebo provést malé změny v pózování (jako například pohybovat se blíže k sobě nebo přímo se dívat do fotoaparátu).

Takže pokud jde o to, co lze říci, produkt tlačí kompozici směrem k mediánu, předpokládaně na základě milionů nahrávaných datových bodů, které pravděpodobně přispěly k tréninkovým datům Gemini. V tomto smyslu uživatelé, kteří nahrávají fotografie, vytvořili kalibraci AI tím, že odmítli nevyhovující snímky a nahráli ty, které se jim líbily – efektivní (a zdarma) forma kurace dat!

To řečeno, fotografie, které jsou vyhlazené z hlediska kompozice, nemusí nutně mít stejné estetické hodnoty nebo dopad na diváka jako fotografie, které jsou pamětihodné.

Mimo “Sýr!” a pravidlo třetiny

K tomuto účelu a směrem k systému, který je více přístupný napříč platformami, nová výzkumná práce z Itálie nabízí Coach-style systém, který je založen na předchozích znalostech o tom, co dělá fotografie pamětihodné:

Far-ranging examples of advice from the authors’ new system. Source

V příkladech výše vidíme rady poskytované autory nového systému – nazvaného MemCoach – které je těžké si představit, že by je mohl poskytnout kompozičně zaměřený AI, jako je Camera Coach. V prvním (nejlevějším) případě je rada odstranit pokrývku hlavy zvláště podezřelá; ve druhé fotografii je těžké si představit, jaký kontext by mohl kompozičně zaměřený AI vyvodit z obecné situace (tj. “umělecké” fotografie mladé ženy ležící na podlaze s uzavřenýma očima).

Jádro chápání o pamětihodnosti ve fotografii, použité pro vývoj tříčástového italského systému, je odvozeno z různých předchozích prací, včetně outing Co dělá objekt pamětihodný? a paper Co dělá fotografii pamětihodnou?.

From the 2013 paper What makes a photograph memorable?, representative examples of good, medium and bad photos, in terms of memorability. Source

Kdokoli, jako já, s negativním Unix datem narození, pravděpodobně rozpozná šablonu pro “nejméně pamětihodné obrázky” (v pravém horním rohu obrázku výše), z nekonečných slide nocí, které prokleté naše dětství. Jak autoři uvádějí*:

‘Tyto práce identifikovaly klíčové intrinsické faktory, jako je přítomnost lidí, interiérové scény, nebo emocionální výrazy, spíše než objekty a panoramatické pohledy, jakož i extrinsické, včetně kontextu a pozorovatele. ‘

Projekt se zaměřuje na ‘pamětihodnost zpětné vazby’ (MemFeed), která je vyjádřena v aplikaci MemCoach tutor a benchmark (nazvaný MemBench) založený na PPR10K dataset.

From the paper PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency, diverse samples from the dataset. Top row shows the original images, bottom row shows expert-retouched versions along with corresponding human-region masks. The original photos vary widely in viewpoint, background, lighting and camera settings, whereas the retouched results display improved visual quality and stronger consistency within each group. Source

Autoři pozorují, že pamětihodnost je kvantifikovatelná ve fotografiích, spíše než registr subjektivních soudů, a autoři dále uvádějí, že tato vlastnost byla identifikována jak pro fotografie (v různých pracích) a videa (v různých jiných).

Nová práce je nazvána How to Take a Memorable Picture? Empowering Users with Actionable Feedback a pochází od čtyř výzkumníků z University of Trento, University of Pisa a Fondazione Bruno Kessler. Příslušná stránka projektu naznačuje, že kód GitHub a data hostovaná na Hugging Face budou k dispozici příští měsíc (březen 2026).

Metoda

Pro kuraci MemBench datasetu z původního PPR10K portrétového datasetu, výzkumníci seskupili fotografie ze stejné scény a ohodnotili každou fotografii pro pamětihodnost pomocí trénovaného prediktoru založeného na CLIP funkcích. Poté ohodnotili fotografie uvnitř každé scény od méně po více pamětihodné a spárovali je podle toho:

Overview of MemBench construction and evaluation. Top row depicts the data pipeline, from grouping images by scene and predicting memorability, to ranking photos and generating memorability-aware action feedback. Bottom row illustrates evaluation, measuring feedback quality through editing-based memorability gains and perplexity scoring.

Pro každou пару, byly vygenerovány přirozené jazykové popisy pomocí modelu InternVL3.5 pro vysvětlení viditelných rozdílů mezi méně pamětihodnou verzí a více pamětihodnou verzí; a tyto popisy by tvořily tréninkový signál pro systém pamětihodnosti.

Na rozdíl od logiky, která je základem Google’s Camera Coach, výzkumníci hledali jemnější sadu interpretací^†:

‘Na rozdíl od komputačně-fotografických úprav, které se zaměřují na post-hoc korekce (například “zjasněte obrázek”), se zaměřujeme na semantické akce, které uživatel může provést na místě pro lepší záběr, například “Čelte elkaar”.’

Konečná kolekce MemBench se skládá z přibližně 10 000 obrázků seskupených do 1 570 scén, průměrně 6,5 obrázků pro každou scénu. Word-cloud, který autoři vygenerovali (viz obrázek níže), naznačuje širokou škálu semantických kategorií v datasetu:

A word cloud of the most frequent terms in MemBench.

Zdrojové fotografie měly průměrný skóre pamětihodnosti 0,63, zatímco nejvíce pamětihodné snímky ze stejné scény se pohybovaly od 0,51 do 1,0, s patrným překryvem mezi oběma skupinami:

Memorability score distributions comparing the least and most memorable images within each scene.

Zpětná vazba se pohybovala od krátkých sedmi-slovních poznámek až po pozoruhodně delší instrukce (vlevo, na obrázku níže). Každá rada byla poté rozdělena na malé akční typy pomocí GPT-5 Mini (vpravo, na obrázku níže):

Feedback length distribution measured in content words, and categorization of atomic sub-actions with chord widths indicating co-occurrence frequency across categories.

Autoři uvádějí, že většina návrhů se zaměřila na to, jak byl předmět pózován, následované změnami významu nebo scénického obsahu, s rámováním často spojeným s pózováním a úpravami osvětlení často spojenými se semantickými změnami.

Flux Kapacitor

Pro vyhodnocení, zda je pamětihodnost zvýšena zpětnou vazbou, byla simulována uživatelská compliance pomocí generativního modelu FLUX.1 Kontext jako proxy pro fotografa. Daný zdroj obrázku a textová zpětná vazba, vygenerovala editovanou verzi Flux, která simulovala navrhované změny:

The images on the left are real, from the dataset, and the images on the right (in each case) are created by Flux, based on the prompt (in yellow, below). In this way, the effectiveness of prompts could be evaluated without extensive human involvement. This knowledge would feed back finally into the MemCoach framework, and in fact represents a workflow that could iteratively improve a system of this kind (i.e., ultimately with real-world rather than Flux examples).

Oba originální a editované obrázky byly poté předány prostřednictvím prediktoru pamětihodnosti, umožňující měření, jak často editovaná verze dosáhla vyšší skóre – nazvané Improvement Ratio – a jak velký byl zisk ve srovnání se začátečním obrázkem, nazvané Relative Memorability.

Podobnost s pamětihodností zaměřenou referenční radou byla také měřena pomocí výpočtu perplexity proti ground-truth popiskům a 80–20 split byl aplikován na úrovni scény, aby se zajistilo, že testování bylo provedeno pouze na scénách, které nebyly použity během tréninku.

Stav umění

Pamětihodnost současného multimodálního velkého jazykového modelu byla testována. Obrázky z LaMem dataset byly ukázány několika vedoucím modelům, které byly požádány, zda je obrázek pamětihodný. Odhad modelu byl poté porovnán se skóre, které přiřadili lidské pozorovatele v původní studii:

Tests indicating that baseline multimodal models do not capture memorability. Left, Spearman rank correlation between model predictions and LaMem ground-truth scores, with inter-annotator agreement from LaMem shown for reference. Right, improvement ratio achieved by zero-shot feedback relative to the editing baseline, showing only marginal gains.

Téměř žádná významná korelace s lidskými soudy nebyla nalezena a navzdory velkému školení, autoři tvrdí, že modely nezachycovaly to, co si lidé důsledně pamatují.

Examples from the LaMem dataset. Upper-left, we also see a heat map depicted for that image. Source

MemCoach

MemCoach se zaměřuje na semantické, na místě instrukce, které lze provést předtím, než je pořízen snímek – například úpravou pózy, změnou interakcí mezi subjekty nebo modifikací scénických prvků. Zpětná vazba poskytovaná MemCoach se pohybuje od 7 do 102 obsahových slov. Pamětihodnost, tvrdí práce, zdá se být více řízena konfigurací subjektu a narativními signály než prostými kompozičními úpravami:

Overview of the MemCoach pipeline, in which memorability-aware guidance from a teacher MLLM is paired with neutral student responses to form contrasting data; activation differences across layers are averaged to derive a memorability steering vector; and that vector is injected at inference to shift student activations toward producing improved, memorability-oriented feedback, without additional training.

Testy

Sedm Multimodálních velkých jazykových modelů (MLLMs) bylo použito ve fázi testování pro nový systém: Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; a LLaVA-OneVision-1.5. Kromě toho byl zahrnut GPT-5 Mini jako zástupce proprietárních, uzavřených modelů, spolu s esteticky specializovanými Q-Instruct a AesExpert modely. MLLMs fungovaly různě jako zero-shot a teacher oracles.

InternVL3.5 byl použit pro obě učitele a studenta modely, s MemBench tréninkovým rozdělením použitým pro vytvoření kontrastních příkladů:

MemCoach performance compared with state-of-the-art MLLMs across teacher oracles, aesthetics-specialized models, and zero-shot baselines, showing higher Improvement Ratio and competitive Relative Memorability together with the lowest perplexity, indicating more consistent and memorability-oriented feedback.

V tabulce pro první test (zobrazený výše) vidíme, že MemCoach zdá se, že poskytuje více efektivní pamětihodnostní rady než jakýkoli z porovnávacích modelů – a řízený InternVL3.5 model zvyšuje pamětihodnost častěji a o větší míru, s 5% Improvement Ratio ziskem oproti GPT-5 Mini a 31,81% skokem v Relative Memorability oproti jeho neřízené verzi.

Také překonává esteticky zaměřené systémy, a to bez nutnosti dalšího tréninku. Nižší perplexita, tvrdí práce, dále naznačuje, že jeho zpětná vazba sleduje stejné lingvistické vzorce, které lidské pamětihodnostní soudy tendenci odměňují:

Generalization results showing that MemCoach improves memorability-oriented feedback across multiple multimodal backbones, consistently raising Improvement Ratio and Relative Memorability while also reducing perplexity for most models.

Další test (viz tabulka výše) ukazuje, že přidání MemCoach zvýšilo pamětihodnostní zpětnou vazbu napříč všemi testovanými multimodálními základy, s konzistentními zisky v Improvement Ratio a největšími skoky se objevujícími u Qwen2.5VL a LLaVA-OV.

Kvalitativní hodnocení bylo poté provedeno, analyzující příklady MemCoach zpětné vazby, ve kterých byl zdrojový obrázek, přirozený jazykový návrh a výsledný upravený obrázek prohlížen vedle sebe:

Qualitative examples of memorability-oriented feedback generated by MemCoach. Each triplet shows the source image, the natural-language instruction, and the resulting edited image, with Relative Memorability (RM) indicating the measured change. The guidance ranges from pose and gaze adjustments to semantic interventions such as object removal, illustrating both successful gains and cases where removing unusual elements reduces memorability.

Z těchto výsledků autoři uvádějí:

‘Příklady zdůrazňují rozmanitost návrhů, které model navrhuje, sahající od jemných kompozičních úprav, jako je změna směru pohledu, pózy nebo polohy ruky, až po semantické zásahy, jako je odstranění objektu nebo změna výrazu tváře. ‘

‘Zpětná vazba je přirozeně interpretovatelná a proveditelná, vyjádřená v stručných textových instrukcích (většinou zahrnujících slovesa “Přineste”, “Postavte”, “Odstraňte”), které lze přímo provést, efektivně verbalizují, jak pořídit pamětihodnou fotografii.’

Závěr

Bylo by nejzajímavější porovnat metodologii Google’s uzavřeného přístupu s projektem MemBench – nejméně aby se zjistilo, jaké centrální standardy, reference a databáze Google použil pro definici estetických standardů systému.

Negativní aspekt systémů tohoto druhu, otevřených nebo uzavřených zdrojů, je, že v měřítku ohrožují prosazovat uniformní standardy, které jsou určeny k tomu, aby skončily jako meme a klišé – jakýsi vizuální ekvivalent AI em-dash debat, kde se “správný” postup stal nějak prokletý v neformálním použití.

* Moje konverze autorů inline citací na hypertextové odkazy, pokud odkaz není uveden jinde v článku.

^†Práce se zde, jako na mnoha jiných místech, odkazuje na “doplňkové materiály”, které nemohu nalézt, ani z práce, ani z hlavního seznamu Arxiv, ani ze stránky projektu.

Poprvé publikováno ve čtvrtek, 26. února 2026

Related Topics:AI Image Editing images photos