Góc nhìn Anderson

JPEG AI Làm Mờ Ranh Giới Giữa Thực Và Tổng Hợp

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

Vào tháng 2 năm nay, tiêu chuẩn quốc tế JPEG AI đã được xuất bản, sau nhiều năm nghiên cứu nhằm sử dụng các kỹ thuật học máy để sản xuất một codec hình ảnh nhỏ hơn và dễ dàng truyền tải và lưu trữ hơn, mà không mất chất lượng cảm nhận.

Từ luồng xuất bản chính thức cho JPEG AI, một so sánh giữa Tỷ Lệ Tín Hiệu Tối Đa (PSNR) và phương pháp tăng cường bằng ML của JPEG AI. Nguồn: https://jpeg.org/jpegai/documentation.html

Một lý do có thể giải thích tại sao sự kiện này không gây được nhiều chú ý là các tệp PDF cốt lõi cho thông báo này không được truy cập miễn phí thông qua các cổng như Arxiv. Tuy nhiên, Arxiv đã đưa ra một số nghiên cứu về tầm quan trọng của JPEG AI trên nhiều khía cạnh, bao gồm cả phương pháp nén không phổ biến và tầm quan trọng đối với pháp y.

Một nghiên cứu so sánh các hiện tượng nén, bao gồm cả bản thảo trước của JPEG AI, cho thấy phương pháp mới này có xu hướng làm mờ văn bản – không phải là một vấn đề nhỏ trong trường hợp codec có thể đóng góp vào chuỗi bằng chứng. Nguồn: https://arxiv.org/pdf/2411.06810

Bởi vì JPEG AI thay đổi hình ảnh theo cách bắt chước các hiện tượng của các máy tổng hợp hình ảnh, các công cụ pháp y hiện có có khó khăn trong việc phân biệt hình ảnh thực và giả:

Sau khi nén JPEG AI, các thuật toán hiện đại không thể phân biệt đáng tin cậy nội dung thực sự và các vùng được thao túng trong các bản đồ định vị, theo một bài báo gần đây (tháng 3 năm 2025). Các ví dụ nguồn được thấy ở bên trái là hình ảnh giả / được thao túng, trong đó các vùng bị thao túng được xác định rõ ràng dưới các kỹ thuật pháp y tiêu chuẩn (hình ảnh ở giữa). Tuy nhiên, nén JPEG AI mang lại cho hình ảnh giả một lớp độ tin cậy (hình ảnh ở bên phải). Nguồn: https://arxiv.org/pdf/2412.03261

Một lý do là JPEG AI được đào tạo bằng một kiến trúc mô hình tương tự như những mô hình được sử dụng bởi các hệ thống sinh tổng hợp mà các công cụ pháp y nhằm phát hiện:

Bài báo mới minh họa sự tương đồng giữa các phương pháp của mã hóa hình ảnh AI và hình ảnh thực sự được sinh tổng hợp. Nguồn: https://arxiv.org/pdf/2504.03191

Do đó, cả hai mô hình có thể tạo ra một số đặc điểm hình ảnh tương tự, từ góc độ pháp y.

Quantization

Sự chồng chéo này xảy ra do quantization, phổ biến cho cả hai kiến trúc, và được sử dụng trong học máy cả như một phương pháp chuyển đổi dữ liệu liên tục thành các điểm dữ liệu rời rạc, và như một kỹ thuật tối ưu hóa có thể giảm đáng kể kích thước tệp của một mô hình đã được đào tạo (các người hâm mộ tổng hợp hình ảnh sẽ quen thuộc với thời gian chờ giữa một mô hình chính thức cồng kềnh và một phiên bản được quantized bởi cộng đồng có thể chạy trên phần cứng cục bộ).

Trong ngữ cảnh này, quantization đề cập đến quá trình chuyển đổi các giá trị liên tục trong biểu diễn latent của hình ảnh thành các bước rời rạc cố định. JPEG AI sử dụng quá trình này để giảm lượng dữ liệu cần thiết để lưu trữ hoặc truyền hình ảnh bằng cách đơn giản hóa biểu diễn số nội bộ.

Mặc dù quantization làm cho mã hóa hiệu quả hơn, nhưng nó cũng áp đặt các quy律 cấu trúc có thể giống với các hiện tượng còn lại của các mô hình sinh tổng hợp – tinh vi đến mức tránh được nhận thức, nhưng gây rối loạn cho các công cụ pháp y.

Để đáp lại, các tác giả của một bài báo mới có tiêu đề Three Forensic Cues for JPEG AI Images đề xuất các kỹ thuật không phải thần kinh có thể phát hiện nén JPEG AI; xác định xem một hình ảnh đã được nén lại; và phân biệt hình ảnh thực được nén với những hình ảnh được tạo hoàn toàn bởi AI.

Phương Pháp

Mối Quan Hệ Màu

Bài báo đề xuất ba ‘dấu hiệu pháp y’ được thiết kế cho hình ảnh JPEG AI: mối quan hệ giữa các kênh màu, được giới thiệu trong các bước tiền xử lý của JPEG AI; distortion có thể đo lường trong chất lượng hình ảnh trên các lần nén lặp đi lặp lại, tiết lộ các sự kiện nén lại; và muster quantization trong không gian latent giúp phân biệt giữa hình ảnh được nén bởi JPEG AI và những hình ảnh được tạo bởi các mô hình AI.

Về phương pháp dựa trên mối quan hệ màu, đường ống tiền xử lý của JPEG AI giới thiệu các phụ thuộc thống kê giữa các kênh màu của hình ảnh, tạo ra một chữ ký có thể phục vụ như một dấu hiệu pháp y.

JPEG AI chuyển đổi hình ảnh RGB sang không gian màu YUV và thực hiện subsampling chroma 4:2:0, bao gồm downsampling các kênh chrominance trước khi nén. Quá trình này dẫn đến các mối quan hệ tinh vi giữa các phần dư tần số cao của các kênh đỏ, xanh lá cây và xanh da trời – các mối quan hệ không có trong hình ảnh không được nén, và khác nhau về cường độ so với những gì được tạo ra bởi nén JPEG truyền thống hoặc các máy tổng hợp hình ảnh.

Một so sánh về cách nén JPEG AI thay đổi mối quan hệ màu trong hình ảnh..

Trên đây, chúng ta có thể thấy một so sánh từ bài báo minh họa cách nén JPEG AI thay đổi mối quan hệ màu trong hình ảnh, sử dụng kênh đỏ làm ví dụ.

Panel A so sánh hình ảnh không được nén với hình ảnh được nén JPEG AI, cho thấy rằng nén làm tăng đáng kể mối quan hệ giữa các kênh; panel B cô lập hiệu ứng của tiền xử lý JPEG AI – chỉ là chuyển đổi màu và subsampling – chứng tỏ rằng ngay cả bước này alone cũng làm tăng mối quan hệ đáng kể; panel C cho thấy nén JPEG truyền thống cũng làm tăng mối quan hệ một chút, nhưng không đến mức độ như vậy; và Panel D kiểm tra hình ảnh tổng hợp, với Midjourney-V5 và Adobe Firefly hiển thị tăng mối quan hệ vừa phải, trong khi những hình ảnh khác vẫn còn gần với mức không được nén.

Tỷ Lệ – Distortion

Dấu hiệu tỷ lệ – distortion xác định nén lại JPEG AI bằng cách theo dõi cách chất lượng hình ảnh, được đo bằng Tỷ Lệ Tín Hiệu Tối Đa (PSNR), giảm trong một mẫu có thể dự đoán được trên nhiều lần nén.

Nghiên cứu cho rằng việc nén lại một hình ảnh với JPEG AI nhiều lần dẫn đến những tổn thất tiến bộ nhưng vẫn có thể đo lường được trong chất lượng hình ảnh, được lượng hóa bởi PSNR, và rằng sự suy giảm dần này tạo thành cơ sở của một dấu hiệu pháp y để phát hiện xem một hình ảnh đã được nén lại.

Không giống như JPEG truyền thống, nơi các phương pháp trước đây theo dõi các thay đổi trong các khối hình ảnh cụ thể, JPEG AI yêu cầu một cách tiếp cận khác, do kiến trúc nén thần kinh của nó; do đó, các tác giả đề xuất theo dõi cách bitrate và PSNR tiến hóa trên các lần nén thành công:

Một minh họa về cách nén lại ảnh hưởng đến chất lượng hình ảnh trên các codec khác nhau cho thấy rằng JPEG AI và codec thần kinh được phát triển tại https://arxiv.org/pdf/1802.01436 đều hiển thị một sự suy giảm ổn định của PSNR với mỗi lần nén thêm - ngay cả ở bitrate thấp. Ngược lại, nén JPEG truyền thống duy trì chất lượng tương đối ổn định trên nhiều lần nén, trừ khi bitrate cao. Mẫu này phục vụ như một ví dụ về cách nén lại để lại một dấu vết có thể đo lường được trong các codec dựa trên AI.

Một minh họa về cách nén lại ảnh hưởng đến chất lượng hình ảnh trên các codec khác nhau, bao gồm cả kết quả từ JPEG AI và một codec thần kinh được phát triển tại https://arxiv.org/pdf/1802.01436; cả hai đều hiển thị một sự suy giảm ổn định của PSNR với mỗi lần nén thêm, ngay cả ở bitrate thấp. Ngược lại, nén JPEG truyền thống duy trì chất lượng tương đối ổn định trên nhiều lần nén, trừ khi bitrate cao.

Trong hình ảnh trên, chúng ta thấy các đường cong tỷ lệ – distortion được vẽ cho JPEG AI; một codec thần kinh khác; và nén JPEG truyền thống, tìm thấy rằng JPEG AI và codec thần kinh hiển thị một sự suy giảm ổn định của PSNR trên tất cả các bitrate, trong khi nén JPEG truyền thống chỉ hiển thị suy giảm đáng kể ở bitrate cao. Hành vi này cung cấp một tín hiệu có thể đo lường được mà có thể được sử dụng để đánh dấu hình ảnh JPEG AI đã được nén lại.

Bằng cách trích xuất cách bitrate và chất lượng hình ảnh tiến hóa trên nhiều lần nén, các tác giả xây dựng một chữ ký giúp đánh dấu xem một hình ảnh đã được nén lại, cung cấp một dấu hiệu pháp y tiềm năng trong ngữ cảnh của JPEG AI.

Quantization

Như chúng ta đã thấy trước đó, một trong những vấn đề pháp y khó khăn hơn được đặt ra bởi JPEG AI là sự tương đồng về mặt hình ảnh với hình ảnh tổng hợp được tạo bởi các mô hình khuếch tán. Cả hai hệ thống đều sử dụng kiến trúc mã hóa – giải mã xử lý hình ảnh trong một không gian latent nén và thường để lại các hiện tượng upsampling tinh vi.

Những đặc điểm chung này có thể làm混 lẫn các bộ phát hiện – ngay cả những bộ được đào tạo lại trên hình ảnh JPEG AI. Tuy nhiên, một sự khác biệt cấu trúc quan trọng vẫn còn: JPEG AI áp dụng quantization, một bước làm tròn các giá trị latent đến các mức rời rạc cho nén hiệu quả, trong khi các mô hình sinh tổng hợp thường không.

Bài báo mới sử dụng sự khác biệt này để thiết kế một dấu hiệu pháp y gián tiếp kiểm tra sự hiện diện của quantization. Phương pháp phân tích cách biểu diễn latent của một hình ảnh phản ứng với việc làm tròn, dựa trên giả định rằng nếu một hình ảnh đã được quantized, cấu trúc latent của nó sẽ hiển thị một mẫu có thể đo lường được.

Những mẫu này, mặc dù vô hình với mắt, tạo ra các sự khác biệt thống kê có thể giúp phân biệt hình ảnh thực được nén với hình ảnh tổng hợp hoàn toàn.

Một ví dụ về phổ Fourier trung bình cho thấy rằng cả hình ảnh được nén JPEG AI và những hình ảnh được tạo bởi các mô hình khuếch tán như Midjourney-V5 và Stable Diffusion XL đều hiển thị các mẫu lưới thường xuyên trong miền tần số – các hiện tượng thường liên quan đến upsampling. Ngược lại, hình ảnh thực không có các mẫu này. Sự chồng chéo này trong cấu trúc phổ giúp giải thích tại sao các công cụ pháp y thường nhầm lẫn hình ảnh thực được nén với hình ảnh tổng hợp.

Quan trọng là, các tác giả cho thấy rằng dấu hiệu này hoạt động trên nhiều mô hình sinh tổng hợp khác nhau và vẫn hiệu quả ngay cả khi nén đủ mạnh để zero out toàn bộ phần không gian latent. Ngược lại, hình ảnh tổng hợp hiển thị phản ứng yếu hơn với thử nghiệm làm tròn này, cung cấp một cách thực tế để phân biệt giữa hai loại.

Kết quả này được thiết kế như một công cụ nhẹ và có thể giải thích, nhắm vào sự khác biệt cốt lõi giữa nén và sinh tổng hợp, thay vì dựa vào các hiện tượng bề mặt giòn.

Dữ Liệu và Kiểm Tra

Nén

Để đánh giá liệu dấu hiệu mối quan hệ màu của họ có thể phát hiện đáng tin cậy nén JPEG AI (tức là một lượt từ nguồn không được nén), các tác giả đã kiểm tra nó trên hình ảnh không được nén chất lượng cao từ bộ dữ liệu RAISE, nén chúng ở nhiều bitrate khác nhau, sử dụng triển khai tham chiếu của JPEG AI.

Họ đã đào tạo một rừng ngẫu nhiên trên các mẫu thống kê của mối quan hệ giữa các kênh màu (đặc biệt là cách nhiễu dư trong mỗi kênh align với các kênh khác) và so sánh nó với một ResNet50 được đào tạo trực tiếp trên các pixel hình ảnh.

Độ chính xác của phát hiện nén JPEG AI sử dụng các tính năng mối quan hệ màu, so sánh trên nhiều bitrate. Phương pháp này hiệu quả nhất ở bitrate thấp, nơi các hiện tượng nén mạnh hơn, và hiển thị sự tổng quát hóa tốt hơn đến các mức nén không nhìn thấy so với mô hình ResNet50 cơ sở.

Trong khi ResNet50 đạt được độ chính xác cao hơn khi dữ liệu kiểm tra gần với điều kiện đào tạo, nó gặp khó khăn trong việc tổng quát hóa trên các mức nén khác nhau. Phương pháp dựa trên mối quan hệ màu, mặc dù đơn giản hơn, đã chứng minh sự nhất quán trên nhiều bitrate, đặc biệt là ở bitrate thấp.

Những kết quả này cho thấy rằng ngay cả không cần học sâu, cũng có thể phát hiện nén JPEG AI bằng cách sử dụng các dấu hiệu thống kê vẫn còn giải thích được và vững chắc.

Nén Lại

Để đánh giá liệu nén lại JPEG AI có thể được phát hiện đáng tin cậy, các nhà nghiên cứu đã kiểm tra dấu hiệu tỷ lệ – distortion trên một tập hợp hình ảnh được nén ở nhiều bitrate khác nhau – một số chỉ một lần và những hình ảnh khác hai lần sử dụng JPEG AI.

Phương pháp này liên quan đến việc trích xuất một vector tính năng 17 chiều để theo dõi cách bitrate và PSNR của hình ảnh tiến hóa trên ba lượt nén. Tập tính năng này捕获 lượng chất lượng bị mất tại mỗi bước, và cách các tốc độ latent và hyperprior hành xử – các metric mà các phương pháp dựa trên pixel truyền thống không thể dễ dàng truy cập.

Các nhà nghiên cứu đã đào tạo một rừng ngẫu nhiên trên các tính năng này và so sánh hiệu suất của nó với một ResNet50 được đào tạo trên các patch hình ảnh:

Kết quả cho độ chính xác phân loại của một rừng ngẫu nhiên được đào tạo trên các tính năng tỷ lệ – distortion để phát hiện xem một hình ảnh JPEG AI đã được nén lại. Phương pháp này hoạt động tốt nhất khi nén ban đầu mạnh (tức là ở bitrate thấp), và sau đó nhất quán vượt qua một ResNet50 – đặc biệt là trong các trường hợp nén thứ hai nhẹ hơn nén đầu tiên.

Rừng ngẫu nhiên đã chứng minh hiệu quả đáng kể khi nén ban đầu mạnh (tức là ở bitrate thấp), tiết lộ sự khác biệt rõ ràng giữa hình ảnh được nén một lần và hình ảnh được nén hai lần. Giống như dấu hiệu trước, ResNet50 gặp khó khăn trong việc tổng quát hóa, đặc biệt là khi được kiểm tra trên các mức nén mà nó không nhìn thấy trong quá trình đào tạo.

Tính năng tỷ lệ – distortion, ngược lại, vẫn ổn định trên nhiều kịch bản. Đáng chú ý, dấu hiệu này hoạt động ngay cả khi được áp dụng cho một codec AI khác, cho thấy rằng cách tiếp cận này tổng quát hóa vượt ra ngoài JPEG AI.

JPEG AI và Hình Ảnh Tổng Hợp

Để kiểm tra cuối cùng, các tác giả đã kiểm tra liệu các tính năng quantization có thể phân biệt giữa hình ảnh được nén JPEG AI và hình ảnh tổng hợp hoàn toàn được tạo bởi các mô hình như Midjourney, Stable Diffusion, DALL-E 2, Glide, và Adobe Firefly.

Để làm điều này, các nhà nghiên cứu đã sử dụng một tập con của bộ dữ liệu Synthbuster, trộn hình ảnh thực từ cơ sở dữ liệu RAISE với hình ảnh được tạo bởi các mô hình khuếch tán và GAN.

Ví dụ về hình ảnh tổng hợp trong Synthbuster, được tạo bằng cách sử dụng các lời nhắc văn bản lấy cảm hứng từ hình ảnh thực trong bộ dữ liệu RAISE-1k. Các hình ảnh được tạo bằng các mô hình khuếch tán khác nhau, với lời nhắc được thiết kế để tạo ra nội dung và kết cấu photorealistic thay vì các bản vẽ nghệ thuật hoặc phong cách hóa, phản ánh sự tập trung của bộ dữ liệu vào việc kiểm tra các phương pháp phân biệt hình ảnh thực và tổng hợp. Nguồn: https://ieeexplore.ieee.org/document/10334046

Hình ảnh thực được nén bằng JPEG AI ở nhiều mức bitrate, và phân loại được đặt ra như một nhiệm vụ hai chiều: hoặc JPEG AI so với một mô hình sinh tổng hợp cụ thể, hoặc một bitrate cụ thể so với Stable Diffusion XL.

Các tính năng quantization (được trích xuất từ biểu diễn latent) được tính toán từ một vùng cố định 256×256 và được cung cấp cho một phân loại rừng ngẫu nhiên. Như một baseline, một ResNet50 được đào tạo trên các patch pixel từ cùng dữ liệu.

Độ chính xác phân loại của một rừng ngẫu nhiên sử dụng các tính năng quantization để phân biệt hình ảnh được nén JPEG AI và hình ảnh tổng hợp.

Trên hầu hết các điều kiện, cách tiếp cận dựa trên quantization vượt qua baseline ResNet50, đặc biệt là ở bitrate thấp nơi các hiện tượng nén mạnh hơn.

Các tác giả tuyên bố:

‘Baseline ResNet50 đạt được độ chính xác cao nhất cho hình ảnh Glide với độ chính xác 66,1%, nhưng nói chung nó tổng quát hóa kém hơn so với các tính năng quantization. Các tính năng quantization hiển thị sự tổng quát hóa tốt trên nhiều mức nén và loại mô hình sinh tổng hợp.

‘Tính quan trọng của các hệ số được quantized thành zero được hiển thị trong hiệu suất rất tốt của các tính năng bị cắt (truncated), trong nhiều trường hợp đạt được hiệu suất tương đương với mô hình phân loại ResNet50.

‘Tuy nhiên, các tính năng quantization sử dụng vector nguyên (full integer vector) chưa bị cắt vẫn đạt được hiệu suất đáng kể cao hơn. Những kết quả này xác nhận rằng số lượng zero sau khi quantization là một dấu hiệu quan trọng để phân biệt hình ảnh được nén AI và hình ảnh được tạo bởi AI.

‘Tuy nhiên, nó cũng cho thấy rằng các yếu tố khác cũng đóng góp. Độ chính xác của vector đầy đủ cho việc phát hiện JPEG AI là trên 91,0% cho tất cả các bitrate, và nén mạnh hơn dẫn đến độ chính xác cao hơn.’

Một hình chiếu của không gian tính năng sử dụng UMAP cho thấy sự phân tách rõ ràng giữa hình ảnh JPEG AI và hình ảnh tổng hợp, với bitrate thấp hơn làm tăng khoảng cách giữa các lớp. Một ngoại lệ nhất quán là Glide, hình ảnh của nó nhóm khác và có độ chính xác phát hiện thấp nhất trong số tất cả các mô hình sinh tổng hợp được kiểm tra.

Hình ảnh hai chiều của UMAP về hình ảnh JPEG AI và hình ảnh tổng hợp, dựa trên các tính năng quantization. Plot bên trái cho thấy bitrate JPEG AI thấp hơn tạo ra sự phân tách lớn hơn từ hình ảnh tổng hợp; plot bên phải cho thấy hình ảnh từ các mô hình sinh tổng hợp khác nhau nhóm khác nhau trong không gian tính năng.

Cuối cùng, các tác giả đã đánh giá cách các tính năng này giữ vững dưới các xử lý hậu kỳ thông thường, chẳng hạn như nén lại JPEG hoặc thay đổi kích thước. Mặc dù hiệu suất giảm khi xử lý nặng hơn, sự suy giảm này là dần dần, cho thấy rằng cách tiếp cận này vẫn giữ được một số độ bền ngay cả trong điều kiện suy giảm.

Đánh giá độ bền của các tính năng quantization dưới các xử lý hậu kỳ, bao gồm nén lại JPEG (JPG) và thay đổi kích thước hình ảnh (RS).

Kết Luận

Không chắc chắn rằng JPEG AI sẽ được áp dụng rộng rãi. Một mặt, có đủ nợ nần cơ sở hạ tầng để gây ra ma sát đối với bất kỳ codec mới; và ngay cả một codec ‘truyền thống’ với một di sản tốt và sự đồng thuận rộng rãi về giá trị của nó, như AV1, có một thời gian khó khăn để loại bỏ các phương pháp đã thiết lập từ lâu.

Về khả năng hệ thống này va chạm với các mô hình sinh tổng hợp AI, các hiện tượng quantization đặc trưng mà giúp các bộ phát hiện AI hiện tại có thể bị suy giảm hoặc thay thế bằng các dấu vết của một loại khác, trong các hệ thống sau này (giả sử rằng các mô hình sinh tổng hợp AI luôn để lại dấu vết pháp y, điều này không chắc chắn).

Điều này có nghĩa là các đặc điểm quantization của JPEG AI, có thể cùng với các dấu hiệu khác được xác định bởi bài báo mới, có thể không va chạm với dấu vết pháp y của các hệ thống sinh tổng hợp AI hiệu quả nhất.

Nếu, tuy nhiên, JPEG AI tiếp tục hoạt động như một ‘rửa AI’ de facto, làm mờ ranh giới giữa hình ảnh thực và tổng hợp một cách đáng kể, sẽ rất khó để đưa ra một trường hợp thuyết phục cho việc áp dụng nó.

Được xuất bản lần đầu vào thứ Ba, ngày 8 tháng 4 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]