Góc nhìn Anderson
Đưa Hình Ảnh Tạo Bởi AI Vào Ánh Sáng Với HDR

Hình ảnh và video do AI tạo ra có thể ấn tượng, nhưng chúng không đạt tiêu chuẩn ‘chuyên nghiệp’ – một vấn đề mà một dự án nghiên cứu mới đang cố gắng giải quyết.
Trong cộng đồng audio-visual chuyên nghiệp, một trong những phản đối thường xuyên nhất đối với sự xâm nhập của AI là thiếu tiêu chuẩn chuyên nghiệp về tái tạo hình ảnh và video. Không kém phần quan trọng là khả năng làm việc với hình ảnh và video High Dynamic Range (HDR).
Hình ảnh HDR là tương đương hiện đại của một kỹ thuật nhiếp ảnh thế kỷ 19/20 gọi là bracketing, nơi cùng một bức tranh được chụp nhiều lần với lượng ánh sáng tăng dần được phép tiếp xúc với phim:

Trên, một chuỗi bracketed ngắn. Dưới, phạm vi động cao có thể được suy ra từ những bức ảnh này thành một hình ảnh duy nhất. Nguồn
Trong nhiếp ảnh truyền thống, điều này dẫn đến nhiều bức tranh mà với một số chuyên môn và nỗ lực, có thể được tạo thành một bức tranh duy nhất có lợi từ tất cả các mức độ chi tiết khác nhau có sẵn trên phạm vi phơi sáng. Nhưng đó không phải là một quá trình đơn giản hoặc dễ dàng.
Ngày nay, một ‘hình ảnh tự động bracketed’ có thể tạo ra nhiều hình ảnh hoặc được kết hợp thành một hình ảnh HDR duy nhất – hiệu quả là nhiều lần phơi sáng trong một hình ảnh, mà các ứng dụng chỉnh sửa hình ảnh hỗ trợ HDR như Photoshop có thể lặp lại và cho phép nhiếp ảnh gia dàn xếp thành một hình ảnh đầu ra lý tưởng.
Nếu bạn tự hỏi tại sao bạn nên quan tâm, hoặc cách điều này ảnh hưởng đến nhiếp ảnh của riêng bạn, hình minh họa cho bài viết này nhằm mục đích chứng minh điều này theo một cách quen thuộc:

Trên, bên trái chúng ta thấy một ví dụ điển hình về hình ảnh sRGB (tức là không phải HDR). Chỉ làm sáng (hiển thị ở bên phải) nó không không hiển thị con quái vật trong tủ, vì chi tiết đó đã bị loại bỏ khi nhiếp ảnh gia và các quá trình tự động của máy ảnh quyết định những gì nên được ưu tiên trong bức tranh:
Dưới là một dấu hiệu (bên trái) về mức độ ‘nhạt’ mà tiền cảnh sẽ phải có ở thời điểm chụp để đăng ký con quái vật trong tủ trong một bức tranh không phải HDR, và (bên phải) con quái vật sẽ bị nhấn chìm trong bóng tối khi độ phơi sáng được thực hiện cho phù hợp với các đối tượng tiền cảnh được chiếu sáng:

Dưới, chúng ta thấy loại chi tiết có thể được ‘cứu’ từ một hình ảnh hoặc chuỗi hình ảnh HDR. Trong trường hợp này, con quái vật đang ‘trốn’ trong các đăng ký hình ảnh thấp nhất của chuỗi HDR, ở mức mà phần còn lại của nội dung sẽ bị ‘phát sáng’ thành gần như trắng (trên, bên trái). Bằng cách chỉ định rằng một phạm vi rộng các mức độ sáng nên được biểu thị một cách chọn lọc trong cùng một hình ảnh, những yếu tố không hòa hợp này có thể được tạo thành một bức tranh hợp lý:

Một hình ảnh không phải HDR được gọi là hình ảnh được tham chiếu hiển thị, và một hình ảnh HDR có gamut cao được gọi là hình ảnh được tham chiếu cảnh.
Video HDR cũng là một điều, và sự linh hoạt về âm sắc và độ dẻo này thực sự mang lại cho các nhà làm phim một số quyền tự do để cứu, phân loại và diễn giải cảnh quay theo nhiều cách sáng tạo và nhất quán; không có gì ngạc nhiên khi các nhà sáng tạo không muốn làm việc với đầu ra sRGB ‘phẳng’ điển hình của hầu hết các khuôn khổ AI tạo sinh.
HDR trong AI
Tự nhiên, cảnh nghiên cứu quan tâm đến việc đưa các khuôn khổ AI tạo sinh vào kỷ nguyên HDR. Tuy nhiên, đó không phải là một nhiệm vụ tầm thường, cả vì kiến trúc cơ bản của các hệ thống tạo sinh dựa trên khuếch tán, và vì dữ liệu HDR tốt chiếm nhiều không gian đĩa, khiến cho các bộ sưu tập trở nên cồng kềnh; do đó, các bộ dữ liệu phù hợp với nhiệm vụ này là hiếm.
Mặc dù vậy, một sự hợp tác giữa một trường đại học ở Singapore và Adobe Research đang cung cấp một phương pháp để tạo ra các chuỗi hình ảnh HDR, trong một phương pháp có thể được áp dụng một cách lý thuyết cho video cũng như hình ảnh tĩnh:

Từ trang web dự án cho công việc mới, các ví dụ về đầu ra hình ảnh-văn bản ‘bracketed’. Nguồn
Hệ thống mới tạo ra nhiều phiên bản của cùng một hình ảnh ở các mức độ sáng khác nhau và học cách sáng thực sự là bao nhiêu, sau đó kết hợp chúng thành một kết quả duy nhất giữ lại chi tiết trong cả bóng tối và vùng sáng, cho phép các chỉnh sửa sau về độ phơi sáng hoặc màu sắc hoạt động giống như điều chỉnh chụp ảnh thực sự, chứ không phải điều chỉnh tinh tế đối với hình ảnh đã được xử lý hoàn toàn.
Hệ thống tận dụng sự đa dạng của các mô hình khác nhau cho nhiệm vụ, bao gồm các biến thể của Qwen và Flux:

Các ví dụ từ bài báo mới, cho thấy hệ thống có thể tạo ra nhiều phiên bản phơi sáng của cùng một cảnh trong khi giữ cấu trúc cơ bản cố định. Bắt đầu từ một bản đồ cạnh đơn giản, mô hình tạo ra hình ảnh nhất quán trên các cài đặt sáng tối đến rất sáng, cho dù lời nhắc mô tả ánh trăng, ánh nắng, hoàng hôn hoặc thậm chí một vật thể nhỏ như một quả bóng, với chủ thể và bố cục vẫn ổn định khi chỉ có ánh sáng thay đổi. Phương pháp có thể thay đổi độ sáng theo cách được kiểm soát, giống như máy ảnh, chứ không phải là trôi dạt hoặc tạo ra nội dung mới khi độ phơi sáng thay đổi. Nguồn
Các tác giả tuyên bố:
‘Tạo ra hình ảnh tuyến tính là một thách thức, vì các VAE được đào tạo trước trong các mô hình khuếch tán khó có thể bảo tồn đồng thời các vùng sáng và bóng tối cực đoan do phạm vi động và độ sâu bit cao hơn.
‘Để giải quyết điều này, chúng tôi đại diện cho một hình ảnh tuyến tính dưới dạng một chuỗi các khung hình phơi sáng, mỗi khung hình bắt một phần cụ thể của phạm vi động, và đề xuất một kiến trúc dòng chảy phù hợp với DiT dựa trên văn bản để tạo khung hình phơi sáng có điều kiện.
‘Chúng tôi cũng chứng minh các ứng dụng hạ nguồn bao gồm chỉnh sửa hình ảnh tuyến tính được hướng dẫn bởi văn bản và tạo ra có điều kiện bởi cấu trúc thông qua ControlNet.’
Công việc mới có tiêu đề Sinh hình ảnh tuyến tính bằng cách tổng hợp các khung hình phơi sáng, và đến từ bốn tác giả trên S-Lab tại Đại học Công nghệ Nanyang, Adobe NextCam và Adobe Research. Ngoài trang web dự án và video YouTube đi kèm với bản phát hành, cũng có một trang GitHub (hiện còn trống) và lời hứa về việc phát hành bộ dữ liệu.
Mặc dù các tác giả cung cấp nhiều ví dụ về đầu ra từ hệ thống tại trang web dự án, người xem sẽ cần một màn hình hỗ trợ HDR để thực sự phân biệt các đặc điểm của đầu ra HDR được trình bày. Tuy nhiên, vui lòng tìm tóm tắt của các nhà nghiên cứu trên YouTube được nhúng ở cuối bài viết này – nhưng hãy lưu ý rằng sự khác biệt giữa các ví dụ được hiển thị có thể không rõ ràng trên màn hình không phải HDR.
Phương pháp và Dữ liệu
Các tác giả nhấn mạnh mức độ mà việc thu thập dữ liệu là một thách thức trong việc theo đuổi này:
‘Thu thập một số lượng lớn hình ảnh tuyến tính là cực kỳ khó khăn trong thực tế. Hơn nữa, hầu hết các bộ dữ liệu HDR công khai là toàn cảnh (do đó tập trung gần như độc quyền vào nội dung cảnh lớn) hoặc không cung cấp hình ảnh tuyến tính thực sự, khiến chúng không phù hợp với mục đích của chúng.’
‘Do đó, chúng tôi chủ yếu sử dụng các bộ dữ liệu hình ảnh RAW làm cơ sở cho đào tạo.’
Các nhà nghiên cứu đã sử dụng sáng tạo các tùy chọn hạn chế, tận dụng bộ dữ liệu RAISE làm dữ liệu đào tạo thực sự, và bộ dữ liệu MIT-Adobe FiveK làm dữ liệu đánh giá*.
Để xây dựng dữ liệu đào tạo HDR có thể sử dụng, các nhà nghiên cứu đã chạy các tệp máy ảnh RAW qua một đường ống tiêu chuẩn để loại bỏ các điểm riêng của máy ảnh, chuyển đổi hình ảnh thành một định dạng tuyến tính nhất quán:

Sơ đồ cho quy trình của các tác giả: hệ thống bắt đầu từ tiếng ồn đại diện cho bốn mức phơi sáng của cùng một cảnh, cùng với một lời nhắc văn bản và một mã độ sáng. Điều này sau đó được xử lý thông qua các khối biến đổi xếp chồng mà giữ các mức phơi sáng khác nhau được căn chỉnh, trong khi điều chỉnh cho ánh sáng. Hệ thống sau đó dự đoán cả tập hợp các hình ảnh phơi sáng, cùng với một thang độ sáng tổng thể, và sau đó giải mã và kết hợp chúng thành một hình ảnh được tham chiếu cảnh duy nhất, giữ lại chi tiết trong cả bóng tối và vùng sáng.
Điều này bao gồm việc xây dựng lại RGB đầy đủ từ dữ liệu cảm biến, áp dụng hiệu chỉnh màu, chuẩn hóa cân bằng trắng và di chuyển ngắn gọn vào không gian màu cảm nhận để làm giảm tiếng ồn trước khi quay lại tín hiệu tuyến tính sạch. Ánh sáng thực trong cảnh sau đó được phục hồi bằng cách sử dụng cài đặt phơi sáng của máy ảnh, để mỗi pixel sẽ phản ánh độ sáng thực chứ không phải là một xấp xỉ sẵn sàng hiển thị.
Vì những giá trị này có thể thay đổi rộng rãi, dữ liệu sau đó được ổn định bằng cách缩 mỗi hình ảnh dựa trên phân bố độ sáng của riêng nó, sử dụng thống kê giữa và vùng sáng để tránh cả hình ảnh bị rửa trôi và vùng sáng bị cháy, cuối cùng nhận được một hình ảnh tuyến tính được chuẩn hóa giữ lại phạm vi thực của ánh sáng trong cảnh, trong khi vẫn ổn định đủ cho đào tạo.
Nhãn văn bản cho hình ảnh sau đó được tạo bằng mô hình Qwen2.5-VL 7B, với lời nhắc được tạo để phù hợp với đặc điểm của mô hình Flux sẽ được sử dụng tại thời điểm tạo:
Mỗi hình ảnh được chia thành ‘lát’ phơi sáng và truyền qua một bộ mã hóa VAE chung, chuyển đổi tất cả các mức phơi sáng thành một không gian ẩn được thiết kế để bắt phạm vi độ sáng đầy đủ. Các ẩn được tinh chỉnh từ tiếng ồn, và giải mã lại thành hình ảnh, cho phép xây dựng lại nhất quán trên các vùng tối và sáng, mà không làm chúng bị ‘phẳng’ thành một lần phơi sáng duy nhất.
Tinh chỉnh LoRA được sử dụng để thích nghi với khung Flux được đào tạo trước với dữ liệu hình ảnh tuyến tính với số tham số tối thiểu, giúp mô hình Single-Diffusion Transformers (single-DiT) vẫn ổn định, ngay cả khi độ sáng thay đổi trên các khung hình phơi sáng.
Chú ý tự điều chỉnh phơi sáng (cột trung tâm trong hình minh họa sơ đồ trên) được giới thiệu để xử lý chung tất cả các khung hình, cho phép độ sáng được điều chỉnh cho mỗi khung hình trong khi giữ cấu trúc và chi tiết mịn được căn chỉnh.
Định vị 3D quay (3D-R[o]PE) được sử dụng để mã hóa cả vị trí không gian và danh tính phơi sáng, để mô hình có thể phân biệt khung hình nào thuộc về từng mã token, trong khi vẫn giữ tính nhất quán không gian, cho phép tách biệt sạch sẽ sự thay đổi độ sáng từ nội dung cảnh.

Tổng quan về bộ dữ liệu được sử dụng trong nghiên cứu, cho thấy cách hình ảnh được phân bố trên các loại nội dung và cảnh trong nhà so với ngoài trời, cùng với sự phân bố của các giá trị độ sáng trong dữ liệu được xử lý. Các biểu đồ hiển thị độ sáng và thang bức xạ trong không gian log, minh họa cách rộng rãi độ sáng thực tế có thể thay đổi, với các giá trị bức xạ cao hơn tương ứng với các cảnh sáng hơn về mặt vật lý và nhấn mạnh phạm vi động mạnh mà mô hình được đào tạo để xử lý.
3D-RoPE tách ở đâu một tính năng và ‘khung hình phơi sáng nào nó đến từ’ thành các tín hiệu riêng biệt, để độ sáng có thể được điều chỉnh độc lập, mà không làm hỏng chi tiết không gian.
Thử nghiệm
Các nhà nghiên cứu đã sử dụng Flux-dev làm khuôn khổ tạo sinh, với đào tạo diễn ra trên bốn GPU NVIDIA A100, mỗi GPU có 80GB VRAM. Kích thước lô được đặt ở 4 (trên mỗi GPU), trong 10.000 lần lặp lại.
Tinh chỉnh LoRA sử dụng hạng 64. Tối ưu hóa AdamW được sử dụng ở tốc độ học 2×102 (cho khía cạnh điều chỉnh phơi sáng).
Các tác giả lưu ý rằng trong khi có hai công việc trước đây tương tự về phạm vi, không có công việc nào trong số đó là một ứng cử viên rõ ràng cho giai đoạn thử nghiệm. Công việc GlowGAN do Max Planck dẫn đầu vào năm 2022 bị giới hạn ở việc tạo ra các loại hình ảnh cụ thể, trong khi Bracket Diffusion năm 2025 (lại do Viện Max Planck dẫn đầu) chỉ có thể tạo ra một hình ảnh HDR ở 256x256px và mất vài phút để thực hiện:

Từ bài báo GlowGAN ban đầu, các hình ảnh LDR điển hình mất chi tiết trong bóng tối và vùng sáng, trong khi mô hình học cách tạo ra các phiên bản HDR giữ lại chi tiết trên các mức độ sáng và cho phép phục hồi các khu vực bị bão hòa thông qua ánh xạ ngược tông màu. Nguồn
Do đó, trong sự vắng mặt của các đường cơ sở trực tiếp cho việc tạo hình ảnh tuyến tính, các tác giả đã so sánh phương pháp của họ với các phiên bản được điều chỉnh của các mô hình hiện có, thay vì các giải pháp thay thế được xây dựng riêng.
Một tập hợp các thí nghiệm (‘T2I Fine-Tuning’) tinh chỉnh mô hình khuếch tán hình ảnh-văn bản Flux bằng cách sử dụng LoRA, đào tạo nó để tạo ra hình ảnh tuyến tính trực tiếp và đánh giá cách một mô hình T2I hiện đại thích nghi với lĩnh vực này.
Một so sánh thứ hai (‘T2V fine-tuning’) sử dụng mô hình hình ảnh-văn bản Wan 2.1, mà VAE nén nhiều khung hình vào một không gian ẩn được chia sẻ; trong thiết lập này, bốn khung hình phơi sáng được mã hóa thành một biểu diễn ẩn duy nhất, và sau đó giải mã lại, kiểm tra xem một đường ống giống như video có thể mô hình hóa sự thay đổi phơi sáng hay không.
Tập hợp thí nghiệm thứ ba (‘T2I Model Inflation’) so sánh với CameraCtrl và Generative Photography, cả hai đều mở rộng các mô hình khuếch tán hình ảnh thông qua các mô-đun thời gian để tạo ra đầu ra nhiều khung hình. Những mô hình này cũng được tinh chỉnh trên cùng một dữ liệu, để có một so sánh nhất quán.
Các chỉ số được sử dụng bao gồm Fréchet Inception Distance (FID); Điểm thẩm mỹ (AS); Trình đánh giá chất lượng hình ảnh tự nhiên (NIQUE); Điểm CLIP Sim; và Tương đồng độ sáng (LS):

So sánh phương pháp của các tác giả với một số đường cơ sở được điều chỉnh cho việc tạo ra hình ảnh tuyến tính, được tham chiếu cảnh. Các mô hình hình ảnh-văn bản (Flux) và hình ảnh-văn bản (Wan 2.1) được tinh chỉnh bằng LoRA để kiểm tra xem các hệ thống tạo sinh hiện có xử lý cài đặt này như thế nào, trong khi CameraCtrl và Generative Photography mở rộng các mô hình khuếch tán với các thành phần thời gian. Một số điểm số bị thiếu, vì một số mô hình không thể tạo ra các khung hình phơi sáng nhất quán, cần thiết để khôi phục phạm vi động đầy đủ. Trên các chỉ số được báo cáo, phương pháp mới đạt được kết quả tổng thể mạnh nhất, đặc biệt là trên các biện pháp liên quan đến chất lượng hình ảnh và tái tạo độ sáng chính xác.
Về những kết quả này, các tác giả tuyên bố:
‘Do sự phân bố rộng rãi của hình ảnh tuyến tính, việc tinh chỉnh trực tiếp mô hình T2I trên dữ liệu tuyến tính khiến nó khó cân bằng chi tiết bóng tối và vùng sáng. Các phương pháp T2I Model Inflation gặp phải cả phạm vi động hạn chế và sự suy giảm chất lượng hình ảnh đáng kể ngay cả sau khi tinh chỉnh.’
‘Đối với T2V Fine-tuning, việc lấy mẫu thời gian 4× của Wan 2.1 trộn các khung hình phơi sáng vào một biểu diễn ẩn duy nhất, gây ra sự không khớp phân bố mà không thể giải quyết được thông qua tinh chỉnh alone. ‘
‘Bằng cách trực tiếp mô hình hóa các thuộc tính được tham chiếu cảnh bằng cách sử dụng các khung hình phơi sáng, phương pháp của chúng tôi đạt được chất lượng hình ảnh và phạm vi động vượt trội trên tất cả các đường cơ sở.’

So sánh với Flux và Wan 2.1 được điều chỉnh bằng LoRA, minh họa cách mỗi phương pháp xử lý các thay đổi phơi sáng trên cùng một cảnh. Các phương pháp cạnh tranh có xu hướng mất chi tiết trong các vùng rất tối hoặc rất sáng, trong khi phương pháp được đề xuất duy trì cấu trúc nhất quán và phục hồi chi tiết có thể sử dụng trên toàn bộ phạm vi phơi sáng. Vui lòng tham khảo phần thí nghiệm mở rộng và phần tài liệu phụ của bài báo để có thêm ví dụ về kết quả.
Vui lòng tham khảo phần thí nghiệm mở rộng và phần tài liệu phụ của bài báo để có thêm các thử nghiệm.
Kết luận
Đối với các chuyên gia truyền thông, chẳng hạn như những người làm việc trong sản xuất phim và truyền hình, cùng một đầu ra đã thu hút trí tưởng tượng (và ngày càng nhiều sự không hài lòng) của thế giới đã để lại họ không ấn tượng, vì hầu hết các đường ống của họ đều phụ thuộc vào một cách nào đó vào các cảnh quay HDR.
Do đó, đây là một dự án kịp thời, đại diện cho một tiện ích mà người ta hy vọng sẽ trở thành một tiêu chuẩn tùy chọn trên các khuôn khổ mới – mặc dù nó chắc chắn sẽ tăng ít nhất gấp đôi thời gian kết xuất; rõ ràng, cũng vậy, độ trễ sẽ cần được giải quyết nghiêm túc nếu nội dung AI HDR không bị giới hạn trong thể loại ‘sau sản xuất’ thay vì trong máy ảnh.
* Thông thường chúng tôi sẽ hiển thị các ví dụ, nhưng vì người đọc có thể không có màn hình hỗ trợ HDR, chúng tôi bỏ qua chúng trong trường hợp này.
Được xuất bản lần đầu vào Chủ nhật, ngày 26 tháng 4 năm 2026












