Connect with us

AnvÀnda AI för att förbÀttra riktiga foton innan de tas

Andersons vinkel

AnvÀnda AI för att förbÀttra riktiga foton innan de tas

mm
Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

I stället för att använda GenAI för att fixa foton efter du tagit dem, har forskare tränat ett system som berättar för dig hur du ska flytta, posera och ramla in bilden i förväg, med hjälp av studerad kunskap om vad som gör bilder minnesvärda.

 

Att fixa foton efteråt har blivit enklare under en ganska lång tid, eftersom tillverkare och tekniska plattformar alltmer erbjuder redigering i kameran som tillåter användare att ändra bilder så fort de har tagits. Populära system av detta slag inkluderar Googles konversationsredigering, och Samsungs generativa redigering, bland andra.

Men en ny trend som föredrar “autenticitet” framför AI-förbättrade resultat kan innebära att många av de konsumenter som dessa system riktar sig till börjar betrakta “ändrade” foton som AI-slop.

Kanske är det detta som inspirerade Google att skapa en AI-tränad “kameracoach” informerad av Gemini, som kan ge direkt instruktion för att förbättra en foto under processen att ta den:

Googles Camera Coach berÀttar för anvÀndaren hur man ska omramla en foto, bland annat grundlÀggande rÄd.

Googles Camera Coach berättar för användaren hur man ska omramla en foto, bland annat grundläggande råd. Källa

Som ett proprietärt system, och med praktiskt taget ingen information tillgänglig online i fråga om det, verkar Camera Coach utnyttja Gemini för att hjälpa användare förbättra ramningen (se bild ovan) eller göra mindre ändringar i stance (såsom att flytta närmare varandra eller titta rakt in i kameran).

Så långt som någon kan se, driver produkten kompositionen mot medianen, antagligen baserat på miljontals uppladdade datapunkter som troligen bidragit till Geminis träningsdata. På detta sätt har de uppladdande användarna skapat AI:s kalibrering genom att avvisa otillfredsställande skott och ladda upp de som de gillar – en effektiv (och gratis) form av dataset-kurering!

Det sagt, foton som är genomsnittliga i termer av komposition besitter inte nödvändigtvis samma estetiska värden eller tittar-impact som foton som är minnesvärda.

Bortom “Ost!” och tredjedelsregeln

I detta syfte, och mot ett system som är mer tillgängligt över plattformar, erbjuder ny forskning från Italien ett Coach-liknande system som baseras på föregående kunskap om vad som gör foton minnesvärda:

LÄngtgÄende exempel pÄ rÄd frÄn författarnas nya system. KÀlla - https://arxiv.org/pdf/2602.21877

Långtgående exempel på råd från författarnas nya system. Källa

I exemplen ovan ser vi råd givet av författarnas nya system – kallat MemCoach – som det är svårt att föreställa sig att en kompositionscentrerad AI som Camera Coach skulle kunna ge. I det första (vänstra) fallet är rådet att ta bort huvudbonaden särskilt tvivelaktigt; i den andra bilden är det svårt att föreställa sig vad konventionell kontext en kompositionsorienterad AI kunde dra från den allmänna scenen (dvs. en “konstnärlig” bild av en ung kvinna som ligger på golvet med ögonen stängda).

Den centrala förståelsen om minnesvärdhet i fotografi, som används för att utveckla det tre-delade italienska systemet, är dragen från olika tidigare arbeten, inklusive 2015 utgången Vad gör ett föremål minnesvärt?, och 2013 papperet Vad gör en fotografisk bild minnesvärd?.

FrÄn 2013-papperet Vad gör en fotografisk bild minnesvÀrd?, representativa exempel pÄ bra, medel och dÄliga foton, i termer av minnesvÀrdhet. KÀlla - https://people.csail.mit.edu/torralba/publications/Isola_memorabilityPhotos_PAMI2014.pdf

Från 2013-papperet Vad gör en fotografisk bild minnesvärd?, representativa exempel på bra, medel och dåliga foton, i termer av minnesvärdhet. Källa

Vem som helst, som jag, med en negativ Unix-födelsedatum, kommer förmodligen att känna igen mallen för “minst minnesvärda bilder” (övre höger i bilden ovan), från de oändliga slidenätter som förbannade vår barndom. Som författarna påstår*:

‘Dessa arbeten identifierade nyckelintrinsiska faktorer som närvaron av människor, inomhusscener eller emotionella uttryck, snarare än föremål och panoramautsikt, samt extrinsiska faktorer, inklusive kontext och observatören.’

Projektet kretsar kring “minnesvärdhetsåterkoppling” (MemFeed), som uttrycks i MemCoach-tutorprogrammet, och en benchmark (med titeln MemBench) baserad på PPR10K-dataseten.

FrĂ„n papperet PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency, diverse prover frĂ„n datasetet. Övre raden visar de ursprungliga bilderna, nedre raden visar expertretuscherade versioner tillsammans med motsvarande human-region masker. De ursprungliga fotona varierar starkt i vy, bakgrund, belysning och kamerainstĂ€llningar, medan de retuscherade resultaten visar förbĂ€ttrad visuell kvalitet och starkare konsekvens inom varje grupp. KĂ€lla - https://arxiv.org/pdf/2105.09180

Från papperet PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency, diverse prover från datasetet. Övre raden visar de ursprungliga bilderna, nedre raden visar expertretuscherade versioner tillsammans med motsvarande human-region masker. De ursprungliga fotona varierar starkt i vy, bakgrund, belysning och kamerainställningar, medan de retuscherade resultaten visar förbättrad visuell kvalitet och starkare konsekvens inom varje grupp. Källa

Författarna observerar att minnesvärdhet är kvantifierbar i foton, snarare än en registrering av subjektiva bedömningar, och författarna noterar dessutom att egenskapen har identifierats både för foton (i olika arbeten) och videor (i olika andra).

Det nya papperet är titulerat Hur tar man ett minnesvärt foto? Att ge användarna handlingsbara råd, och kommer från fyra forskare över University of Trento, University of Pisa och Fondazione Bruno Kessler. Det åtföljande projektsidan föreslår att GitHub-kod och Hugging Face-värd data kommer att vara tillgängliga nästa månad (mars 2026).

Metod

För att kurera MemBench-datasetet från käll-PPR10K-porträtt-datasetet, grupperade forskarna foton från samma scen och poängsatte varje bild för minnesvärdhet med hjälp av en tränad predictor baserad på CLIP funktioner. De rankade sedan fotona inom varje scen från minst till mest minnesvärt och parade dem enligt:

Översikt av MemBench-konstruktion och utvĂ€rdering. Övre raden visar data-pipelinen, frĂ„n gruppering av bilder efter scen och förutsĂ€gelse av minnesvĂ€rdhet, till rangordning av foton och generering av minnesvĂ€rdhetsmedveten Ă„terkoppling. Nedre raden illustrerar utvĂ€rdering, mĂ€tning av Ă„terkopplingskvalitet genom redigering-baserad minnesvĂ€rdhetsvinning och perplexitetspoĂ€ng.

Översikt av MemBench-konstruktion och utvärdering. Övre raden visar data-pipelinen, från gruppering av bilder efter scen och förutsägelse av minnesvärdhet, till rangordning av foton och generering av minnesvärdhetsmedveten återkoppling. Nedre raden illustrerar utvärdering, mätning av återkopplingskvalitet genom redigering-baserad minnesvärdhetsvinning och perplexitetspoäng.

För varje par genererades naturliga språkbeskrivningar med InternVL3.5-modellen för att förklara de synliga skillnaderna mellan den minst minnesvärda versionen och den mest minnesvärda versionen; och dessa beskrivningar skulle utgöra träningsignalen för minnesvärdhetsåterkopplingssystemet.

I kontrast till den typ av logik som ligger till grund för Googles Camera Coach, sökte forskarna en mer subtil uppsättning tolkningar:

‘Till skillnad från beräkningsfotografiska justeringar som fokuserar på efterföljande korrigeringar (t.ex. “gör bilden ljusare”), fokuserar vi på semantiska åtgärder som en användare kan vidta på plats för ett bättre skott, t.ex. “Vänd er mot varandra”.’

Den slutliga MemBench-samlingen består av cirka 10 000 bilder grupperade i 1 570 scener, med i genomsnitt 6,5 bilder per scen. Ord-molnet som författarna genererade (se bild nedan), visar en bred uppsättning semantiska kategorier i datasetet:

Ett ord-moln av de vanligaste termerna i MemBench.

Ett ord-moln av de vanligaste termerna i MemBench.

Källfotona hade i genomsnitt en minnesvärdhetspoäng på 0,63, medan de mest minnesvärda skotten från samma scen sträckte sig från 0,51 upp till 1,0, med märkbar överlappning mellan de två grupperna:

Fördelning av minnesvÀrdhetspoÀng som jÀmför de minst och mest minnesvÀrda bilderna inom varje scen.

Fördelning av minnesvärdhetspoäng som jämför de minst och mest minnesvärda bilderna inom varje scen.

Återkopplingen sträckte sig från korta sju-ordsnotiser till betydligt längre instruktioner (vänster, i bilden nedan). Varje råd bröts sedan ner i små åtgärdstyper med hjälp av GPT-5 Mini (höger, i bilden nedan):

Fördelning av ÄterkopplingslÀngd mÀtt i innehÄllsord, och kategorisering av atomÀra underÄtgÀrder med ackordbredd som indikerar samtidighetsfrekvens över kategorier.

Fördelning av återkopplingslängd mätt i innehållsord, och kategorisering av atomära underåtgärder med ackordbredd som indikerar samtidighetsfrekvens över kategorier.

Författarna noterar att de flesta förslagen fokuserade på hur motivet var poserat, följt av ändringar i betydelse eller sceninnehåll, och ramning ofta var kopplad till posering, och belysningsjusteringar ofta var knutna till semantiska ändringar.

Flux-kapacitor

För att utvärdera om minnesvärdhet ökades av återkopplingen, simulerades användarkompatibilitet med hjälp av FLUX.1 Kontext-generativ modell, som en proxy för fotografen. Givet en källbild och en textbaserad återkoppling, genererades en redigerad version av Flux som simulerade de föreslagna ändringarna:

Bilderna till vÀnster Àr riktiga, frÄn datasetet, och bilderna till höger (i varje fall) skapades av Flux, baserat pÄ prompten (i gul, nedan). PÄ detta sÀtt kunde effektiviteten hos prompter utvÀrderas utan omfattande mÀnskligt engagemang. Denna kunskap skulle Äterkopplas slutligen till MemCoach-ramverket, och faktiskt representerar en arbetsflöde som kunde iterativt förbÀttra ett system av detta slag (dvs. slutligen med riktiga exempel snarare Àn Flux-exempel).

Bilderna till vänster är riktiga, från datasetet, och bilderna till höger (i varje fall) skapades av Flux, baserat på prompten (i gul, nedan). På detta sätt kunde effektiviteten hos prompter utvärderas utan omfattande mänskligt engagemang. Denna kunskap skulle återkopplas slutligen till MemCoach-ramverket, och faktiskt representerar en arbetsflöde som kunde iterativt förbättra ett system av detta slag (dvs. slutligen med riktiga exempel snarare än Flux-exempel).

Både den ursprungliga och redigerade bilderna skickades sedan genom en minnesvärdhetspredictor, vilket möjliggjorde mätning av hur ofta den redigerade versionen uppnådde en högre poäng – kallad Förbättringsförhållande – och hur stor vinsten var i förhållande till startbilden, kallad Relativ minnesvärdhet.

Likhet med minnesvärdhetsfokuserad referensåterkoppling mättes också genom att beräkna perplexitet mot grund-sanning-beskrivningarna, och en 80–20 split tillämpades på scen-nivå så att testning endast utfördes på scener som inte hade använts under träningsfasen.

State of the Art

Minnesvärdhetsmedvetenheten hos nuvarande multimodala stora språkmodeller testades. Bilder från LaMem-datasetet visades för flera ledande modeller, som ombads att avgöra om bilden var minnesvärd. Modellens konfidensuppskattning jämfördes sedan med poängen som tilldelats av mänskliga tittare i den ursprungliga studien:

Tester som visar att baslinje-multimodala modeller inte fÄngar minnesvÀrdhet. VÀnster, Spearman-rankkorrelation mellan modellprediktioner och LaMem-grund-sanning-poÀng, med inter-annotator-överensstÀmmelse frÄn LaMem visas som referens. Höger, förbÀttringsförhÄllande som uppnÄddes av nollskott-Äterkoppling i förhÄllande till redigeringsbaslinjen, visar endast marginella vinster.

Tester som visar att baslinje-multimodala modeller inte fångar minnesvärdhet. Vänster, Spearman-rankkorrelation mellan modellprediktioner och LaMem-grund-sanning-poäng, med inter-annotator-överensstämmelse från LaMem visas som referens. Höger, förbättringsförhållande som uppnåddes av nollskott-återkoppling i förhållande till redigeringsbaslinjen, visar endast marginella vinster.

Knappast någon meningsfull korrelation med mänskliga bedömningar hittades, och trots stor skala-förträning, hävdar författarna att modellerna inte spårade vad människor konsekvent minns.

Exempel frĂ„n LaMem-datasetet. Övre-vĂ€nster, vi ser ocksĂ„ en vĂ€rme-karta avbildad för den bilden. KĂ€lla - http://memorability.csail.mit.edu/explore.html

Exempel från LaMem-datasetet. Övre-vänster, vi ser också en värme-karta avbildad för den bilden. Källa

MemCoach

MemCoach fokuserar på semantiska, på-plats-instruktioner som kan utföras innan slutaren trycks – till exempel, justering av pose, ändring av interaktioner mellan motiv, eller modifiering av scen-element. Återkopplingen som tillhandahålls av MemCoach varierar från 7 till 102 innehållsord. Minnesvärdhet, hävdar papperet, verkar drivas mer av motiv-konfiguration och berättande signaler än av enkla kompositionsjusteringar:

Översikt av MemCoach-pipelinen, dĂ€r minnesvĂ€rdhetsmedveten vĂ€gledning frĂ„n en lĂ€rar-MLLM paras med neutrala elevsvar för att bilda kontrasterande data; aktiverings skillnader över lager genomsnittlig för att hĂ€rleda en minnesvĂ€rdhets-styrningsvektor; och den vektorn injiceras vid inferens för att förskjuta elevaktivering mot att producera förbĂ€ttrad, minnesvĂ€rdhetsorienterad Ă„terkoppling, utan extra trĂ€ningsdata.

Översikt av MemCoach-pipelinen, där minnesvärdhetsmedveten vägledning från en lärar-MLLM paras med neutrala elevsvar för att bilda kontrasterande data; aktiverings skillnader över lager genomsnittlig för att härleda en minnesvärdhets-styrningsvektor; och den vektorn injiceras vid inferens för att förskjuta elevaktivering mot att producera förbättrad, minnesvärdhetsorienterad återkoppling, utan extra träningsdata.

Tester

Sju multimodala stora språkmodeller (MLLMs) användes i testfasen för det nya systemet: Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; och LLaVA-OneVision-1.5. Dessutom ingick GPT-5 Mini som representant för proprietära, slutna modeller, tillsammans med estetik-specialiserade Q-Instruct och AesExpert-modeller. MLLM:erna fungerade på olika sätt som nollskott-orakel och lärarorakel.

InternVL3.5 användes för både lärar- och elevmodellerna, med MemBench-träningsdelningen för att skapa kontrasterande exempel:

MemCoach-prestanda jÀmfört med state-of-the-art MLLM:er över lÀrarorakel, estetik-specialiserade modeller och nollskott-baslinjer, visar högre förbÀttringsförhÄllande och konkurrenskraftig relativ minnesvÀrdhet tillsammans med den lÀgsta perplexiteten, vilket indikerar mer konsekvent och minnesvÀrdhetsorienterad Äterkoppling.

MemCoach-prestanda jämfört med state-of-the-art MLLM:er över lärarorakel, estetik-specialiserade modeller och nollskott-baslinjer, visar högre förbättringsförhållande och konkurrenskraftig relativ minnesvärdhet tillsammans med den lägsta perplexiteten, vilket indikerar mer konsekvent och minnesvärdhetsorienterad återkoppling.

I tabellen för det första testet (visad ovan) ser vi att MemCoach verkar leverera mer effektiv minnesvärdhetsråd än någon av jämförelsemodellerna – och den styrda InternVL3.5-modellen ökar minnesvärdhet oftare och med en större mängd, med en 5% förbättringsförhållande-vinst över GPT-5 Mini, och en 31,81% hopp i relativ minnesvärdhet över sin ostyrda version.

Det överträffar också estetik-fokuserade system, trots att det inte kräver någon extra träningsdata. Lägre perplexitet, hävdar papperet, antyder dessutom att dess återkoppling följer samma språkliga mönster som mänskliga minnesvärdhetsbedömningar tenderar att belöna:

Generaliseringsresultat som visar att MemCoach förbÀttrar minnesvÀrdhetsorienterad Äterkoppling över flera multimodala ryggradsmodeller, konsekvent ökar förbÀttringsförhÄllande och relativ minnesvÀrdhet samtidigt som det minskar perplexitet för de flesta modeller.

Generaliseringsresultat som visar att MemCoach förbättrar minnesvärdhetsorienterad återkoppling över flera multimodala ryggradsmodeller, konsekvent ökar förbättringsförhållande och relativ minnesvärdhet samtidigt som det minskar perplexitet för de flesta modeller.

Ett ytterligare test (se tabell ovan) indikerar att tillägg av MemCoach förbättrade minnesvärdhetsorienterad återkoppling över alla testade multimodala ryggradsmodeller, med konsekventa vinster i förbättringsförhållande och de största hopp som visas för Qwen2.5VL och LLaVA-OV.

En kvalitativ utvärdering genomfördes sedan, med analys av exempel på MemCoach-återkoppling där källbilden, den naturliga språkförslaget och den tänkta förbättrade resultatet undersöktes sida vid sida:

Kvalitativa exempel pÄ minnesvÀrdhetsorienterad Äterkoppling genererad av MemCoach. Varje trippel visar kÀllbilden, det naturliga sprÄkförslaget och den resulterande redigerade bilden, med relativ minnesvÀrdhet (RM) som indikerar den uppmÀtta förÀndringen. VÀgledningen strÀcker sig frÄn pose- och blickjusteringar till semantiska ingrepp som föremÄlsborttagning, vilket illustrerar bÄde lyckade vinster och fall dÀr borttagning av ovanliga element minskar minnesvÀrdhet.

Kvalitativa exempel på minnesvärdhetsorienterad återkoppling genererad av MemCoach. Varje trippel visar källbilden, det naturliga språkförslaget och den resulterande redigerade bilden, med relativ minnesvärdhet (RM) som indikerar den uppmätta förändringen. Vägledningen sträcker sig från pose- och blickjusteringar till semantiska ingrepp som föremålsborttagning, vilket illustrerar både lyckade vinster och fall där borttagning av ovanliga element minskar minnesvärdhet.

Av dessa resultat hävdar författarna:

‘Exemplen belyser variationen av förslag som modellen föreslår, som sträcker sig från fina kompositionsjusteringar, såsom att ändra blickriktning, pose eller handposition, till semantiska ingrepp som föremålsborttagning eller ansiktsuttrycksändring.

‘Återkopplingen är naturligt tolkningsbar och handlingsbar, uttryckt i koncisa textinstruktioner (främst innehållande verb “Bring”, “Stand”, “Remove”) som kan implementeras direkt, effektivt verbaliserande hur man tar ett minnesvärt foto.’

Slutsats

Det vore mest intressant att jämföra metodologin för Googles slutna tillvägagångssätt med MemBench-projektet – inte minst för att veta vilka centrala standarder, referenser och databaser Google använde för att definiera systemets estetiska standarder.

Den negativa aspekten av system av detta slag, öppen eller sluten källkod, är att de i stor skala riskerar att tvinga fram enhetliga standarder som är avsedda att sluta som memer och klichéer – en sorts visuell motsvarighet till AI-strecksdebatter, där den “korrekta” proceduren har blivit något förbannad i informell användning.

 

* Min konvertering av författarnas inline-citat till hyperlänkar, om länken inte presenteras någon annanstans i artikeln.

Papperet hänvisar här, liksom på flera andra ställen, till “tilläggsmaterial” som jag inte kan hitta, vare sig från papperet, den grundläggande Arxiv-listningen eller projektsidan.

Publicerad första gången torsdag, 26 februari 2026

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.