Góc nhìn Anderson

Sử dụng Trí tuệ nhân tạo để Cải thiện Ảnh thật trước khi Chụp

Published February 26, 2026

Updated April 25, 2026

Martin Anderson

Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

Thay vì sử dụng GenAI để sửa ảnh sau khi bạn chụp chúng, các nhà nghiên cứu đã đào tạo một hệ thống thông báo cho bạn cách di chuyển, tạo dáng và khung hình trước khi chụp, sử dụng kiến thức đã nghiên cứu về những gì làm cho hình ảnh đáng nhớ.

Việc sửa ảnh sau khi chụp đã trở nên dễ dàng hơn trong một thời gian, vì các nhà sản xuất và nền tảng công nghệ ngày càng cung cấp chức năng chỉnh sửa trong máy ảnh cho phép người dùng thay đổi hình ảnh ngay sau khi chụp. Các hệ thống phổ biến của loại này bao gồm chức năng chỉnh sửa đối thoại của Google và chức năng chỉnh sửa tạo của Samsung, cùng với một số khác.

Tuy nhiên, một xu hướng mới ưa chuộng ‘tính xác thực’ hơn kết quả ‘cải thiện’ bằng AI có thể có nghĩa là nhiều người tiêu dùng mà các hệ thống này nhắm đến bắt đầu coi hình ảnh ‘đã chỉnh sửa’ là phần thừa của AI.

Có lẽ đây là điều đã truyền cảm hứng cho Google tạo ra một ‘huấn luyện viên máy ảnh’ được đào tạo bằng AI thông báo trực tiếp để cải thiện một bức ảnh trong quá trình chụp:

Huấn luyện viên máy ảnh của Google thông báo cho người dùng cách tái tạo khung hình cho bức ảnh, cùng với một số lời khuyên cơ bản khác. Nguồn

Là một hệ thống độc quyền, và với hầu như không có thông tin trực tuyến liên quan đến nó, Huấn luyện viên máy ảnh dường như tận dụng Gemini để giúp người dùng cải thiện khung hình (xem hình ảnh trên) hoặc thực hiện các thay đổi nhỏ về tư thế (như di chuyển gần nhau hơn, hoặc nhìn trực tiếp vào máy ảnh).

Vì vậy, theo như bất kỳ ai có thể nói, sản phẩm này đẩy sự kết hợp về mức trung bình, có lẽ dựa trên hàng triệu điểm dữ liệu nội dung đã tải lên có thể đã góp phần vào dữ liệu đào tạo của Gemini. Theo cách này, người dùng tải lên đã tạo ra hiệu chỉnh của AI bằng cách từ chối các bức ảnh không满意 và tải lên những bức ảnh họ thích – một hình thức hiệu quả (và miễn phí) của chọn dữ liệu!

Tuy nhiên, ảnh được trung bình về mặt kết hợp không nhất thiết phải có cùng giá trị thẩm mỹ hoặc tác động của người xem như ảnh đáng nhớ.

Beyond ‘Cheese!’ và Quy tắc của Một phần ba

Để đạt được điều này, và hướng tới một hệ thống có thể tiếp cận được trên nhiều nền tảng, nghiên cứu mới từ Ý cung cấp một hệ thống kiểu Huấn luyện viên có dựa trên kiến thức trước về những gì làm cho ảnh in dấu trong tâm trí:

Các ví dụ đa dạng về lời khuyên từ hệ thống mới của các tác giả. Nguồn

Trong các ví dụ trên, chúng ta thấy lời khuyên được đưa ra bởi hệ thống mới của các tác giả – được gọi là Huấn luyện viên nhớ – điều mà rất khó để tưởng tượng một AI về kết hợp như Huấn luyện viên máy ảnh có thể cung cấp. Trong trường hợp đầu tiên (trái nhất), lời khuyên để loại bỏ mũ đầu là đặc biệt đáng ngờ; trong bức ảnh thứ hai, rất khó để tưởng tượng được bối cảnh thông thường mà một AI về kết hợp có thể rút ra từ tình huống chung (tức là một bức ảnh ‘nghệ thuật’ của một cô gái trẻ nằm trên sàn với mắt đóng).

Sự hiểu biết cốt lõi về khả năng nhớ trong nhiếp ảnh, được sử dụng để phát triển hệ thống ba phần của Ý, được rút ra từ các công việc trước đó, bao gồm cả outing Điều gì làm cho một vật thể đáng nhớ?, và bài báo Điều gì làm cho một bức ảnh đáng nhớ?.

Từ bài báo What makes a photograph memorable?, các ví dụ đại diện về ảnh tốt, trung bình và kém, về mặt khả năng nhớ. Nguồn

Bất kỳ ai, như tôi, với ngày sinh Unix âm, sẽ có thể nhận ra mẫu cho ‘ảnh ít đáng nhớ’ (phải trên hình ảnh trên), từ những buổi chiếu ảnh không ngừng nghỉ mà chúng ta đã trải qua trong thời thơ ấu. Như các tác giả đã tuyên bố*:

‘Những công việc này đã xác định các yếu tố nội tại quan trọng như sự hiện diện của người, cảnh trong nhà, hoặc biểu cảm cảm xúc, thay vì đối tượng và quan điểm toàn cảnh, cũng như các yếu tố bên ngoài, bao gồm bối cảnh và người quan sát. ‘

Dự án tập trung vào ‘phản hồi khả năng nhớ’ (MemFeed), được thể hiện trong ứng dụng hướng dẫn MemCoach, và một điểm chuẩn (được gọi là MemBench) dựa trên PPR10K dữ liệu.

Từ bài báo PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency, các mẫu đa dạng từ dữ liệu. Hàng trên cùng hiển thị hình ảnh gốc, hàng dưới cùng hiển thị các phiên bản chỉnh sửa chuyên nghiệp cùng với các mặt nạ vùng người tương ứng. Các ảnh gốc thay đổi rộng rãi về điểm nhìn, nền, ánh sáng và cài đặt máy ảnh, trong khi kết quả chỉnh sửa hiển thị chất lượng hình ảnh được cải thiện và sự nhất quán mạnh mẽ hơn trong mỗi nhóm. Nguồn

Các tác giả quan sát thấy rằng khả năng nhớ là có thể đo lường được trong ảnh, thay vì một bản ghi của các phán quyết chủ quan, và các tác giả lưu ý thêm rằng thuộc tính này đã được xác định cả cho ảnh (trong các công việc) và video (trong các khác).

Bài báo mới mới có tiêu đề Làm thế nào để chụp một bức ảnh đáng nhớ? Cung cấp cho người dùng phản hồi có thể thực hiện, và đến từ bốn nhà nghiên cứu trên Đại học Trento, Đại học Pisa, và Fondazione Bruno Kessler. Trang dự án đồng hành gợi ý rằng mã GitHub và dữ liệu được lưu trữ trên Hugging Face sẽ có sẵn vào tháng tới (tháng 3 năm 2026).

Phương pháp

Để tạo bộ dữ liệu MemBench từ bộ dữ liệu ảnh chân dung PPR10K, các nhà nghiên cứu đã nhóm các ảnh từ cùng một cảnh và đánh giá mỗi ảnh về khả năng nhớ bằng một bộ dự đoán được đào tạo dựa trên CLIP tính năng. Họ sau đó xếp hạng các ảnh trong mỗi cảnh từ ít đến nhiều đáng nhớ và ghép chúng theo cách đó:

Tổng quan về việc xây dựng và đánh giá MemBench, hàng trên cùng mô tả đường ống dữ liệu, từ việc nhóm ảnh theo cảnh và dự đoán khả năng nhớ, đến việc xếp hạng ảnh và tạo phản hồi hành động nhận thức về khả năng nhớ. Hàng dưới cùng minh họa việc đánh giá, đo lường chất lượng phản hồi thông qua lợi ích về khả năng nhớ dựa trên chỉnh sửa và điểm đánh giá khó khăn.

Đối với mỗi cặp, các mô tả ngôn ngữ tự nhiên được tạo ra với mô hình InternVL3.5 để giải thích sự khác biệt có thể nhìn thấy giữa phiên bản ít đáng nhớ và phiên bản đáng nhớ hơn; và những mô tả này sẽ tạo thành tín hiệu đào tạo cho hệ thống phản hồi về khả năng nhớ.

Trái ngược với loại logic mà dướipins Huấn luyện viên máy ảnh của Google, các nhà nghiên cứu tìm kiếm một tập hợp tinh tế hơn của các giải thích^†:

‘Trái ngược với các điều chỉnh nhiếp ảnh tính toán tập trung vào các sửa chữa sau khi chụp (ví dụ, “làm cho hình ảnh sáng hơn”), chúng tôi tập trung vào các hành động ngữ nghĩa mà người dùng có thể thực hiện ngay lập tức để có một bức ảnh tốt hơn, ví dụ, “Hướng mặt vào nhau”.’

Bộ sưu tập MemBench cuối cùng bao gồm khoảng 10.000 ảnh được nhóm thành 1.570 cảnh, trung bình 6,5 ảnh cho mỗi cảnh. Đám mây từ các tác giả tạo ra (xem hình ảnh dưới đây) gợi ý một loạt các loại ngữ nghĩa trong bộ dữ liệu:

Đám mây từ các thuật ngữ thường xuyên nhất trong MemBench.

Các ảnh nguồn có điểm khả năng nhớ trung bình là 0,63, trong khi các ảnh đáng nhớ nhất từ cùng một cảnh kéo dài từ 0,51 lên đến 1,0, với sự chồng chéo đáng chú ý giữa hai nhóm:

Phân phối điểm khả năng nhớ so sánh các ảnh ít đáng nhớ và nhiều đáng nhớ nhất trong mỗi cảnh.

Phản hồi bản thân thay đổi từ các lưu ý ngắn 7 từ, đến các hướng dẫn đáng chú ý dài hơn (trái, trong hình ảnh dưới đây). Mỗi lời khuyên sau đó được chia thành các loại hành động nhỏ bằng cách sử dụng GPT-5 Mini (phải, trong hình ảnh dưới đây):

Phân phối độ dài phản hồi đo lường bằng từ nội dung, và phân loại các hành động con nguyên tử với độ rộng của dây đàn chỉ ra tần suất đồng thời trên các loại.

Các tác giả lưu ý rằng hầu hết các gợi ý tập trung vào cách chủ thể được tạo dáng, theo sau là các thay đổi về ý nghĩa hoặc nội dung cảnh, với việc tạo khung thường liên kết với tạo dáng, và điều chỉnh ánh sáng thường gắn liền với các thay đổi ngữ nghĩa.

Flux Capacitor

Để đánh giá xem khả năng nhớ có được tăng lên bởi phản hồi hay không, sự tuân thủ của người dùng được mô phỏng thông qua việc sử dụng mô hình FLUX.1 Kontext tạo sinh, như một đại diện cho nhiếp ảnh gia. Cho một ảnh nguồn và một phản hồi văn bản, một phiên bản chỉnh sửa được tạo ra bởi Flux mô phỏng các thay đổi được đề xuất:

Các ảnh ở bên trái là thực, từ bộ dữ liệu, và các ảnh ở bên phải (trong mỗi trường hợp) được tạo ra bởi Flux, dựa trên lời nhắc (màu vàng, dưới đây). Theo cách này, hiệu quả của lời nhắc có thể được đánh giá mà không cần sự tham gia rộng rãi của con người. Kiến thức này sẽ phản hồi cuối cùng vào khuôn khổ MemCoach, và trên thực tế, nó đại diện cho một quy trình làm việc có thể cải thiện lặp lại một hệ thống như vậy (tức là cuối cùng với các ví dụ trong thế giới thực thay vì các ví dụ của Flux).

Cả ảnh gốc và ảnh chỉnh sửa sau đó đều được truyền qua một bộ dự đoán khả năng nhớ, cho phép đo lường xem ảnh chỉnh sửa đạt được điểm cao hơn bao nhiêu lần – được gọi là Tỷ lệ Cải thiện – và mức độ lợi ích là bao nhiêu so với ảnh gốc, được gọi là Khả năng nhớ Tương đối.

Tương tự như khả năng nhớ tập trung vào tham chiếu cũng được đo lường bằng cách tính độ khó hiểu so với các mô tả thực, và một phân chia 80–20 được áp dụng ở cấp độ cảnh để đảm bảo việc kiểm tra chỉ được thực hiện trên các cảnh chưa được sử dụng trong quá trình đào tạo.

Trạng thái của Nghệ thuật

Sự nhận thức về khả năng nhớ của các mô hình ngôn ngữ lớn đa phương tiện hiện tại đã được kiểm tra. Các ảnh từ bộ dữ liệu LaMem được hiển thị cho một số mô hình hàng đầu, những mô hình này được hỏi xem ảnh có đáng nhớ hay không. Ước tính độ tin cậy của mô hình sau đó được so sánh với các điểm được chỉ định bởi người xem trong nghiên cứu ban đầu:

Các thử nghiệm chỉ ra rằng các mô hình đa phương tiện cơ bản không bắt được khả năng nhớ. Trái, hệ số tương quan hạng Spearman giữa dự đoán của mô hình và điểm khả năng nhớ LaMem, với thỏa thuận giữa các người đánh giá từ LaMem được hiển thị để tham khảo. Phải, tỷ lệ cải thiện đạt được bởi phản hồi không có-shot so với baseline chỉnh sửa, chỉ ra lợi ích nhỏ.

Gần như không có sự tương quan có ý nghĩa nào với các phán quyết của con người được tìm thấy, và mặc dù được đào tạo trước quy mô lớn, các tác giả khẳng định rằng các mô hình không theo dõi những gì người dân nhớ một cách nhất quán.

Các ví dụ từ bộ dữ liệu LaMem. Trên cùng bên trái, chúng ta cũng thấy một bản đồ nhiệt được hiển thị cho ảnh đó. Nguồn

MemCoach

MemCoach tập trung vào các hướng dẫn ngữ nghĩa, có thể thực hiện được ngay lập tức trước khi nhấn nút chụp – ví dụ, điều chỉnh tư thế, thay đổi tương tác giữa các đối tượng, hoặc sửa đổi các yếu tố cảnh. Phản hồi được cung cấp bởi MemCoach thay đổi từ 7-102 từ nội dung. Khả năng nhớ, bài báo cho rằng, dường như được thúc đẩy nhiều hơn bởi cấu hình chủ thể và các tín hiệu tường thuật hơn là bởi các điều chỉnh kết hợp đơn giản:

Tổng quan về đường ống MemCoach, trong đó hướng dẫn nhận thức về khả năng nhớ từ một mô hình ngôn ngữ lớn đa phương tiện được ghép với các phản hồi trung lập của học sinh để tạo thành dữ liệu tương phản; các sự khác biệt về hoạt động trên các lớp được tính trung bình để suy ra một vectơ điều khiển khả năng nhớ; và vectơ đó được tiêm vào quá trình suy luận để thay đổi hoạt động của học sinh theo hướng tạo ra phản hồi hướng đến khả năng nhớ mà không cần đào tạo thêm.

Thử nghiệm

Bảy Mô hình Ngôn ngữ Lớn Đa phương tiện (MLLMs) đã được sử dụng trong giai đoạn thử nghiệm cho hệ thống mới: Qwen2.5V.L; InternVL3_5-8B; Idefics3-8B; và LLaVA-OneVision-1.5. Ngoài ra, GPT-5 Mini cũng được bao gồm như một đại diện của các mô hình độc quyền, đóng; cùng với các mô hình chuyên về thẩm mỹ Q-Instruct và AesExpert. Các MLLMs hoạt động như các mô hình zero-shot và các mô hình giáo viên.

InternVL3.5 được sử dụng cho cả mô hình giáo viên và mô hình học sinh, với bộ chia MemBench được sử dụng để tạo các ví dụ tương phản:

Hiệu suất của MemCoach so với các MLLMs hiện tại trên các mô hình giáo viên, các mô hình chuyên về thẩm mỹ và các baseline không có-shot, cho thấy tỷ lệ cải thiện cao hơn và khả năng nhớ tương đối cạnh tranh cùng với độ khó hiểu thấp nhất, cho thấy phản hồi nhất quán và hướng đến khả năng nhớ hơn.

Trong bảng cho thử nghiệm đầu tiên (hiển thị trên), chúng ta thấy rằng MemCoach dường như cung cấp lời khuyên về khả năng nhớ hiệu quả hơn bất kỳ mô hình nào trong số các mô hình so sánh – và mô hình InternVL3.5 được điều khiển tăng khả năng nhớ thường xuyên hơn và với một lượng lớn hơn, với lợi ích 5% về tỷ lệ cải thiện so với GPT-5 Mini, và một bước nhảy 31,81% về khả năng nhớ tương đối so với phiên bản không được điều khiển của nó.

Nó cũng vượt trội so với các hệ thống tập trung vào thẩm mỹ, mặc dù không cần đào tạo thêm. Độ khó hiểu thấp hơn, bài báo cho rằng, cũng cho thấy rằng phản hồi của nó tuân theo cùng các mẫu ngôn ngữ mà các đánh giá về khả năng nhớ của con người thường thưởng.

Kết quả tổng quát cho thấy MemCoach cải thiện phản hồi hướng đến khả năng nhớ trên nhiều xương sống đa phương tiện, tăng tỷ lệ cải thiện và khả năng nhớ tương đối một cách nhất quán trong khi giảm độ khó hiểu cho hầu hết các mô hình.

Một thử nghiệm khác (xem bảng trên) cho thấy rằng việc thêm MemCoach đã tăng phản hồi hướng đến khả năng nhớ trên mọi xương sống đa phương tiện được thử nghiệm, với lợi ích nhất quán về tỷ lệ cải thiện và lợi ích lớn nhất xuất hiện cho Qwen2.5VL và LLaVA-OV.

Một đánh giá định tính sau đó được thực hiện, phân tích các ví dụ về phản hồi MemCoach trong đó ảnh nguồn, gợi ý ngôn ngữ tự nhiên và kết quả chỉnh sửa được tưởng tượng được xem xét cạnh nhau:

Ví dụ định tính về phản hồi hướng đến khả năng nhớ được tạo ra bởi MemCoach. Mỗi bộ ba hiển thị ảnh nguồn, hướng dẫn ngôn ngữ tự nhiên và ảnh chỉnh sửa kết quả, với Khả năng nhớ Tương đối (RM) chỉ ra sự thay đổi được đo lường. Hướng dẫn này thay đổi từ điều chỉnh tư thế và hướng nhìn đến các can thiệp ngữ nghĩa như loại bỏ đối tượng, minh họa cả lợi ích thành công và các trường hợp loại bỏ các yếu tố không bình thường làm giảm khả năng nhớ.

Về những kết quả này, các tác giả tuyên bố:

‘Các ví dụ này làm nổi bật sự đa dạng của các gợi ý mà mô hình đề xuất, từ điều chỉnh kết hợp tinh tế, chẳng hạn như thay đổi hướng nhìn, tư thế hoặc vị trí tay, đến các can thiệp ngữ nghĩa liên quan đến việc loại bỏ đối tượng hoặc thay đổi biểu cảm khuôn mặt. ‘

‘Phản hồi được thể hiện một cách tự nhiên và có thể thực hiện được, được thể hiện trong các hướng dẫn văn bản ngắn gọn (chủ yếu liên quan đến các động từ “Đưa”, “Đứng”, “Loại bỏ”) có thể được thực hiện trực tiếp, hiệu quả hóa cách nói về việc chụp một bức ảnh đáng nhớ.’

Kết luận

Điều đó sẽ rất thú vị khi so sánh phương pháp của cách tiếp cận hộp đóng của Google với dự án MemBench – không chỉ để biết những tiêu chuẩn, tham chiếu và cơ sở dữ liệu trung tâm mà Google đã sử dụng để xác định các tiêu chuẩn thẩm mỹ của hệ thống.

Nhược điểm của các hệ thống như thế này, nguồn mở hoặc độc quyền, là chúng có nguy cơ áp đặt các tiêu chuẩn thống nhất ở quy mô lớn, những tiêu chuẩn này có khả năng kết thúc như các meme và các hình ảnh chung – một loại tương đương về mặt hình ảnh của tranh cãi về dấu gạch chéo của AI, nơi thủ tục ‘đúng’ đã trở thành gần như bị nguyền rủa trong sử dụng thông thường.

* Sự chuyển đổi của tôi các trích dẫn nội tuyến của các tác giả thành liên kết, nếu liên kết không được trình bày ở nơi khác trong bài viết.

^†Bài báo đề cập đến ‘vật liệu bổ sung’ tại đây, cũng như ở một số nơi khác, mà tôi không thể tìm thấy, từ bài báo, danh sách Arxiv cốt lõi hoặc trang web dự án.

Được xuất bản lần đầu vào thứ Năm, ngày 26 tháng 2 năm 2026

Related Topics:AI Image Editing images photos

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]