Connect with us

การใช้ AI เพื่อปรับปรุงรูปถ่ายจริงก่อนถ่าย

มุมมองของ Anderson

การใช้ AI เพื่อปรับปรุงรูปถ่ายจริงก่อนถ่าย

mm
Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

แทนที่จะใช้ GenAI เพื่อแก้ไขรูปถ่าย หลัง คุณถ่ายรูปแล้ว นักวิจัยได้ฝึกอบรมระบบที่บอกคุณว่าจะย้าย ท่าทาง และจัดเฟรมรูปถ่ายล่วงหน้า โดยใช้ความรู้ที่ศึกษามาเกี่ยวกับสิ่งที่ทำให้รูปถ่ายน่าจดจำ

 

การแก้ไขรูปถ่ายหลังการถ่ายภาพได้กลายเป็นเรื่องที่ง่ายขึ้นในช่วงหลายปีที่ผ่านมา เนื่องจากผู้ผลิตและแพลตฟอร์มเทคโนโลยีให้บริการแก้ไขในกล้องที่ช่วยให้ผู้ใช้สามารถเปลี่ยนแปลงรูปภาพได้ทันทีหลังการถ่ายภาพ ระบบที่ได้รับความนิยมของประเภทนี้รวมถึงการแก้ไขแบบสนทนาของ Google และการแก้ไขแบบสร้างสรรค์ของ Samsung เป็นต้น

อย่างไรก็ตาม แนวโน้มที่เพิ่มขึ้นซึ่งให้ความสำคัญกับ “ความเป็นธรรม” มากกว่าผลลัพธ์ที่ได้รับการปรับปรุงโดย AI อาจหมายความว่าผู้บริโภคหลายคนซึ่งเป็นกลุ่มเป้าหมายของระบบเหล่านี้เริ่มมองว่ารูปถ่ายที่ “ถูกแก้ไข” เป็น “สิ่งปนเปื้อนของ AI”

อาจเป็นเพราะสิ่งนี้ที่ทำให้ Google สร้าง “โค้ชกล้อง” ที่ได้รับการฝึกอบรมจาก AI ซึ่งได้รับข้อมูลจาก Gemini ซึ่งสามารถให้คำแนะนำโดยตรงเพื่อปรับปรุงรูปถ่าย ระหว่าง กระบวนการถ่ายภาพ:

Google's Camera Coach บอกผู้ใช้ว่าจะจัดเฟรมรูปถ่ายใหม่ รวมทั้งคำแนะนำพื้นฐานอื่นๆ

Google’s Camera Coach บอกผู้ใช้ว่าจะจัดเฟรมรูปถ่ายใหม่ รวมทั้งคำแนะนำพื้นฐานอื่นๆ แหล่งที่มา

เนื่องจากเป็นระบบที่เป็นกรรมสิทธิ์ และมีข้อมูลออนไลน์เกี่ยวกับระบบนี้แทบจะไม่มี ระบบ Camera Coach ดูเหมือนจะใช้ Gemini เพื่อช่วยให้ผู้ใช้ปรับปรุงการวางเฟรมหรือทำการเปลี่ยนแปลงเล็กๆ น้อยๆ ในท่าทาง เช่น การยืนใกล้กันมากขึ้น หรือมองตรงเข้ากล้อง

ดังนั้น ในที่สุด ระบบผลิตภัณฑ์นี้จึงผลักดันการวางองค์ประกอบไปสู่ค่าเฉลี่ย โดยพิจารณาจากข้อมูลจุดข้อมูลหลายล้านจุดที่อาจมีส่วนช่วยในการฝึกอบรม Gemini ซึ่งเป็นการทำความสะอาดข้อมูลชุด (dataset curation) ที่มีประสิทธิภาพและฟรี!

แต่ รูปถ่ายที่ “ถูกเฉลี่ย” ในด้านการวางองค์ประกอบไม่จำเป็นต้องมีคุณค่าทาง审美หรือมีผลกระทบต่อผู้ชมเหมือนกับรูปถ่ายที่ น่าจดจำ

ไปไกลกว่า ‘ชีส!’ และกฎของสามส่วน

เพื่อจุดนี้ และเพื่อระบบที่สามารถเข้าถึงได้มากขึ้นบนแพลตฟอร์มต่างๆ การวิจัยใหม่จากอิตาลีเสนอระบบ Coach-STYLE ที่ขึ้นอยู่กับความรู้ล่วงหน้าเกี่ยวกับ สิ่งที่ทำให้รูปถ่ายยังคงอยู่ในใจ:

ตัวอย่างคำแนะนำที่หลากหลายจากระบบใหม่ของนักวิจัย

ตัวอย่างคำแนะนำที่หลากหลายจากระบบใหม่ของนักวิจัย แหล่งที่มา

ในตัวอย่างข้างต้น เราจะเห็นคำแนะนำที่ระบบใหม่ของนักวิจัยให้มา ซึ่งระบบ Camera Coach ที่เน้นการวางองค์ประกอบไม่สามารถให้คำแนะนำนี้ได้ ในตัวอย่างแรก (ซ้ายสุด) คำแนะนำในการถอดหมวกนั้นเป็นพิเศษ ในรูปที่สอง มันยากที่จะจินตนาการว่าบริบททั่วไปที่ AI ที่เน้นการวางองค์ประกอบสามารถดึงมาจากสถานการณ์ทั่วไป (เช่น รูปถ่าย “ศิลปะ” ของสาวหนุ่มที่นอนบนพื้นพร้อมปิดตา)

ความเข้าใจหลักเกี่ยวกับความน่าจดจำในการถ่ายภาพที่ใช้พัฒนาระบบสามส่วนของอิตาลีนี้ มาจากผลงานก่อนหน้าหลายอย่าง รวมถึงการเผยแพร่ในปี 2015 อะไรทำให้วัตถุน่าจดจำ? และการเผยแพร่ในปี 2013 อะไรทำให้รูปถ่ายน่าจดจำ?

จากงานวิจัยในปี 2013 เรื่องอะไรทำให้รูปถ่ายน่าจดจำ? ตัวอย่างที่เป็นตัวแทนของภาพที่ดี ปานกลาง และไม่ดีในด้านความน่าจดจำ

จากงานวิจัยในปี 2013 เรื่องอะไรทำให้รูปถ่ายน่าจดจำ? ตัวอย่างที่เป็นตัวแทนของภาพที่ดี ปานกลาง และไม่ดีในด้านความน่าจดจำ แหล่งที่มา

ใครก็ตามที่มีวันที่เกิด Unix ลบ จะรู้จักเทมเพลตสำหรับ “รูปถ่ายที่ไม่น่าจดจำ” (บนขวาในภาพด้านบน) จากคืนสลайдที่ไม่มีที่สิ้นสุด คืนสลайд ที่สาปวันเด็กของเรา ดังที่นักวิจัยระบุ*:

‘งานเหล่านี้ระบุปัจจัยภายในที่สำคัญ เช่น การมีคน, ฉากในร่ม, หรือการแสดงออกทางอารมณ์ มากกว่าวัตถุและ มุมมองที่กว้าง, เช่นเดียวกับปัจจัยภายนอก รวมถึงบริบทและ ผู้สังเกต

โครงการนี้มุ่งเน้นไปที่ ‘การให้ข้อมูลย้อนกลับเกี่ยวกับความน่าจดจำ’ (MemFeed) ซึ่งแสดงออกมาในแอปพลิเคชัน MemCoach และมาตรฐาน (MemBench) ที่สร้างจากชุดข้อมูล PPR10K

จากงานวิจัย PPR10K: ชุดข้อมูลการแก้ไขภาพถ่ายขนาดใหญ่พร้อมหน้ากากพื้นที่มนุษย์และความสอดคล้องระดับกลุ่ม ตัวอย่างที่หลากหลายจากชุดข้อมูล

จากงานวิจัย PPR10K: ชุดข้อมูลการแก้ไขภาพถ่ายขนาดใหญ่พร้อมหน้ากากพื้นที่มนุษย์และความสอดคล้องระดับกลุ่ม ตัวอย่างที่หลากหลายจากชุดข้อมูล แหล่งที่มา

งานวิจัยระบุว่าความน่าจดจำสามารถวัดได้ในรูปถ่าย มากกว่าการพิจารณาที่เป็นเรื่องส่วนตัว และนักวิจัยยังระบุด้วยว่าคุณสมบัตินี้ได้รับการระบุสำหรับทั้งรูปถ่าย (ใน งานวิจัยต่างๆ) และวิดีโอ (ใน งานวิจัยต่างๆ)

งานวิจัยใหม่ เรื่องนี้ มีชื่อเรื่องว่า วิธีการถ่ายรูปที่น่าจดจำ? การเพิ่มขีดความสามารถให้ผู้ใช้ด้วยข้อมูลย้อนกลับที่สามารถดำเนินการได้ และมาจากนักวิจัยสี่คนจากมหาวิทยาลัยเทรนโต มหาวิทยาลัยปิซา และ Fondazione Bruno Kessler หน้าโครงการ ที่เกี่ยวข้อง แสดงว่าโค้ด GitHub และข้อมูลที่จัดเก็บบน Hugging Face จะมีให้ใช้เดือนหน้า (มีนาคม 2026)

วิธีการ

ในการสร้างชุดข้อมูล MemBench จากชุดข้อมูล PPR10K นักวิจัยได้แบ่งรูปถ่ายจากฉากเดียวกันและให้คะแนนรูปถ่ายแต่ละภาพสำหรับความน่าจดจำโดยใช้ตัวทำนายที่ฝึกอบรมจาก CLIP คุณลักษณะ จากนั้นจึงจัดอันดับรูปถ่ายภายในฉากแต่ละฉากจากน้อยไปหามากและจับคู่รูปถ่ายตามลำดับ:

ภาพรวมของการก่อสร้างและประเมิน MemBench

ภาพรวมของการก่อสร้างและประเมิน MemBench

สำหรับแต่ละคู่ คำอธิบายภาษาธรรมชาติจะถูกสร้างขึ้นโดยใช้โมเดล InternVL3.5 เพื่ออธิบายความแตกต่างที่เห็นได้ระหว่างรูปถ่ายที่น่าจดจำน้อยกว่าและรูปถ่ายที่น่าจดจำมากกว่า และคำอธิบายเหล่านี้จะประกอบเป็นสัญญาณการฝึกอบรมสำหรับระบบการให้ข้อมูลย้อนกลับเกี่ยวกับความน่าจดจำ

ในทางตรงกันข้ามกับตรรกะที่เป็นรากฐานของ Google’s Camera Coach นักวิจัยมุ่งเน้นไปที่การตีความที่ละเอียดอ่อนมากขึ้น:

‘ตรงกันข้ามกับการปรับเปลี่ยนการถ่ายภาพที่เน้นการแก้ไขหลังการถ่าย (เช่น “ทำให้รูปภาพสว่างขึ้น”) เราเน้นไปที่การกระทำเชิงсемантиคที่ผู้ใช้สามารถดำเนินการได้ขณะถ่ายรูป เช่น “หันหน้าเข้าหากัน”‘

ชุดข้อมูล MemBench สุดท้ายประกอบด้วยรูปถ่ายประมาณ 10,000 ภาพที่แบ่งออกเป็น 1,570 ฉาก โดยเฉลี่ย 6.5 รูปถ่ายต่อฉาก

เมฆคำที่แสดงคำที่พบบ่อยที่สุดในชุดข้อมูล MemBench

เมฆคำที่แสดงคำที่พบบ่อยที่สุดในชุดข้อมูล MemBench

รูปถ่ายต้นฉบับเฉลี่ยคะแนนความน่าจดจำที่ 0.63 ในขณะที่รูปถ่ายที่น่าจดจำที่สุดจากฉากเดียวกันอยู่ในช่วงตั้งแต่ 0.51 ถึง 1.0 โดยมีการทับซ้อนอย่างเห็นได้ชัดระหว่างสองกลุ่ม:

การกระจายคะแนนความน่าจดจำที่เปรียบเทียบรูปถ่ายที่น่าจดจำน้อยที่สุดและมากที่สุดในแต่ละฉาก

การกระจายคะแนนความน่าจดจำที่เปรียบเทียบรูปถ่ายที่น่าจดจำน้อยที่สุดและมากที่สุดในแต่ละฉาก

คำแนะนำต่างๆ มีตั้งแต่คำแนะนำสั้น 7 คำ ไปจนถึงคำแนะนำที่ยาวกว่ามาก (ทางซ้ายในภาพด้านล่าง) แต่ละคำแนะนำจะถูกแบ่งออกเป็นประเภทการกระทำเล็กๆ โดยใช้ GPT-5 Mini (ทางขวาในภาพด้านล่าง):

การกระจายความยาวคำแนะนำที่วัดจากคำ และการแบ่งประเภทการกระทำเล็กๆ โดยใช้ความถี่การเกิดร่วมกันระหว่างหมวดหมู่

การกระจายความยาวคำแนะนำที่วัดจากคำ และการแบ่งประเภทการกระทำเล็กๆ โดยใช้ความถี่การเกิดร่วมกันระหว่างหมวดหมู่

นักวิจัยระบุว่าคำแนะนำส่วนใหญ่มุ่งเน้นไปที่วิธีการวางท่าของผู้ถูกถ่ายภาพ ตามด้วยการเปลี่ยนแปลงความหมายหรือเนื้อหาของฉาก และการวางเฟรมมักจะเชื่อมโยงกับการวางท่า และการปรับแสงบ่อยครั้งเชื่อมโยงกับการเปลี่ยนแปลงเชิงсемантиค

ฟลักซ์ คาปาซิเตอร์

เพื่อประเมินว่าความน่าจดจำได้รับการปรับปรุงโดยคำแนะนำหรือไม่ การปฏิบัติตามคำแนะนำของผู้ใช้จะถูกจำลองโดยใช้โมเดล FLUX.1 Kontext เป็นตัวแทนของช่างภาพ เมื่อให้รูปถ่ายต้นฉบับและคำแนะนำภาษาธรรมชาติ รูปถ่ายที่แก้ไขแล้วจะถูกสร้างขึ้นโดย Flux ที่จำลองการเปลี่ยนแปลงที่แนะนำ:

รูปถ่ายทางซ้ายเป็นรูปถ่ายจริงจากชุดข้อมูล และรูปถ่ายทางขวา (ในแต่ละกรณี) ถูกสร้างขึ้นโดย Flux ตามคำแนะนำ (ใน黄ในด้านล่าง)

รูปถ่ายทางซ้ายเป็นรูปถ่ายจริงจากชุดข้อมูล และรูปถ่ายทางขวา (ในแต่ละกรณี) ถูกสร้างขึ้นโดย Flux ตามคำแนะนำ (ใน黄ในด้านล่าง)

ทั้งรูปถ่ายต้นฉบับและรูปถ่ายที่แก้ไขแล้วจะถูกส่งผ่านตัวทำนายความน่าจดจำเพื่อวัดว่าบ่อยแค่ไหนที่รูปถ่ายที่แก้ไขแล้วได้รับคะแนนสูงกว่า และขนาดการเพิ่มขึ้นเทียบกับรูปถ่ายต้นฉบับ

ความคล้ายคลึงกับคำแนะนำที่มุ่งเน้นความน่าจดจำจะถูกวัดโดยการคำนวณ ความสับสน เทียบกับคำอธิบายที่เป็นจริง และการแบ่ง 80–20 จะถูกใช้ ที่ระดับฉากเพื่อให้การทดสอบจะดำเนินการเฉพาะในฉากที่ไม่ได้ใช้ในการฝึกอบรม

สถานะของงานศิลปะ

ความตระหนักเกี่ยวกับความน่าจดจำในปัจจุบันของโมเดลภาษาหลายรูปแบบจะถูกทดสอบ รูปถ่ายจากชุดข้อมูล LaMem จะถูกแสดงให้กับโมเดลชั้นนำหลายรูปแบบ ซึ่งจะถูกถามว่ารูปถ่ายนั้นน่าจดจำหรือไม่ และการประมาณความมั่นใจของโมเดลจะถูกเปรียบเทียบกับคะแนนที่ได้รับการกำหนดโดยผู้ชมมนุษย์ในงานศึกษาดั้งเดิม:

การทดสอบที่แสดงว่าโมเดลหลายรูปแบบไม่ได้เข้าใจความน่าจดจำ

การทดสอบที่แสดงว่าโมเดลหลายรูปแบบไม่ได้เข้าใจความน่าจดจำ

ความสัมพันธ์ที่มีความหมายแทบจะไม่มีระหว่างการคาดเดาของโมเดลและความเห็นของผู้ชมมนุษย์ และแม้จะมีการฝึกอบรมขนาดใหญ่ นักวิจัยยืนยันว่าโมเดลเหล่านี้ไม่ได้ตามรอยสิ่งที่ผู้คนจดจำได้อย่างต่อเนื่อง

ตัวอย่างจากชุดข้อมูล LaMem

ตัวอย่างจากชุดข้อมูล LaMem แหล่งที่มา

MemCoach

MemCoach มุ่งเน้นไปที่คำแนะนำเชิงсемантиคที่สามารถดำเนินการได้ก่อนที่จะกดชัตเตอร์ เช่น การปรับท่าทาง การเปลี่ยนแปลงการโต้ตอบระหว่างผู้ถูกถ่ายภาพ หรือการเปลี่ยนแปลงองค์ประกอบของฉาก คำแนะนำที่ MemCoach ให้มาแตกตั้งแต่ 7 คำจนถึง 102 คำที่มีเนื้อหา

ความน่าจดจำดูเหมือนจะถูกขับเคลื่อนโดยการวางท่าของผู้ถูกถ่ายภาพและคำแนะนำเชิงเรื่องราวมากกว่าการปรับเปลี่ยนเชิงองค์ประกอบที่เรียบง่าย

ภาพรวมของกระบวนการ MemCoach

ภาพรวมของกระบวนการ MemCoach

การทดสอบ

โมเดลภาษาหลายรูปแบบ 7 แบบถูกใช้ในการทดสอบสำหรับระบบใหม่นี้: Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; และ LLaVA-OneVision-1.5 นอกจากนี้ GPT-5 Mini ยังถูกนำมาใช้เป็นตัวแทนของโมเดลที่เป็นกรรมสิทธิ์และปิด และโมเดล Q-Instruct และ AesExpert ที่เน้นด้านสุนทรียศาสตร์ โมเดลเหล่านี้ทำงานในลักษณะ zero-shot และ teacher oracles

InternVL3.5 ถูกใช้สำหรับทั้งโมเดลที่เป็นครูและโมเดลที่เป็นนักเรียน โดยใช้การแบ่งชุดข้อมูล MemBench เพื่อสร้างตัวอย่างที่ขัดแย้งกัน:

การแสดงผลของ MemCoach เมื่อเปรียบเทียบกับโมเดลหลายรูปแบบชั้นนำ

การแสดงผลของ MemCoach เมื่อเปรียบเทียบกับโมเดลหลายรูปแบบชั้นนำ

ในตารางสำหรับการทดสอบแรก (แสดงด้านบน) เราจะเห็นว่า MemCoach ดูเหมือนจะให้คำแนะนำที่มีประสิทธิภาพมากกว่าโมเดลอื่นๆ ในการปรับปรุงความน่าจดจำ และโมเดล InternVL3.5 ที่ได้รับการปรับปรุงโดย MemCoach เพิ่มความน่าจดจำบ่อยขึ้นและมากขึ้น โดยมีการเพิ่มขึ้น 5% ในอัตราส่วนการปรับปรุงเมื่อเทียบกับ GPT-5 Mini และการเพิ่มขึ้น 31.81% ในความน่าจดจำสัมพัทธ์เมื่อเทียบกับรุ่นที่ไม่ได้รับการปรับปรุง

[note: translation continues as per the original, maintaining the same structure and content without any additions or omissions.]

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai