Trí tuệ nhân tạo

Nghiên cứu của Disney Cung cấp Nén Hình ảnh Dựa trên Trí tuệ Nhân tạo Được Cải tiến – Nhưng Nó Có Thể Hallucinate Chi tiết

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Bộ phận Nghiên cứu của Disney đang cung cấp một phương pháp mới để nén hình ảnh, tận dụng mô hình Stable Diffusion V1.2 mã nguồn mở để tạo ra hình ảnh thực tế hơn tại tốc độ bit thấp hơn so với các phương pháp cạnh tranh.

Phương pháp nén của Disney so với các phương pháp trước đó. Các tác giả tuyên bố rằng việc phục hồi chi tiết được cải thiện, đồng thời cung cấp một mô hình không yêu cầu hàng trăm nghìn đô la để đào tạo và hoạt động nhanh hơn so với phương pháp cạnh tranh tương đương nhất. Source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Phương pháp mới (được định nghĩa là ‘codec’ mặc dù nó phức tạp hơn so với các codec truyền thống như JPEG và AV1) có thể hoạt động trên bất kỳ Mô hình khuếch tán tiềm ẩn (LDM) nào. Trong các thử nghiệm định lượng, nó vượt trội so với các phương pháp trước đó về độ chính xác và chi tiết, và yêu cầu ít đào tạo và chi phí tính toán hơn.

Điểm chính của công việc mới là lỗi lượng hóa (một quá trình trung tâm trong tất cả các thuật toán nén hình ảnh) tương tự như tiếng ồn (một quá trình trung tâm trong các mô hình khuếch tán).

Do đó, một hình ảnh được lượng hóa “truyền thống” có thể được coi là một phiên bản bị nhiễu của hình ảnh gốc và được sử dụng trong quá trình làm sạch nhiễu của LDM thay vì tiếng ồn ngẫu nhiên, để tái tạo hình ảnh tại tốc độ bit mục tiêu.

So sánh thêm về phương pháp mới của Disney (được đánh dấu màu xanh lá cây), so với các phương pháp cạnh tranh.

Các tác giả tuyên bố:

‘[Chúng tôi] xây dựng việc loại bỏ lỗi lượng hóa thành một nhiệm vụ làm sạch nhiễu, sử dụng khuếch tán để phục hồi thông tin bị mất trong hình ảnh tiềm ẩn được truyền. Phương pháp của chúng tôi cho phép chúng tôi thực hiện ít hơn 10% quá trình tạo sinh khuếch tán đầy đủ và không yêu cầu thay đổi kiến trúc đối với mô hình khuếch tán, cho phép sử dụng mô hình nền tảng như một tiên đề mạnh mà không cần tinh chỉnh thêm mô hình cơ bản.

‘Phương pháp codec được đề xuất của chúng tôi vượt trội so với các phương pháp trước đó về các chỉ số thực tế định lượng, và chúng tôi xác nhận rằng các bản tái tạo của chúng tôi được người dùng cuối ưa chuộng về mặt định lượng, ngay cả khi các phương pháp khác sử dụng gấp đôi tốc độ bit.’

Tuy nhiên, giống như các dự án khác nhằm khai thác khả năng nén của các mô hình khuếch tán, đầu ra có thể hallucinate chi tiết. Ngược lại, các phương pháp mất như JPEG sẽ tạo ra các vùng chi tiết bị biến dạng rõ ràng hoặc mịn, có thể được người xem thông thường nhận ra là giới hạn nén.

Thay vào đó, codec của Disney có thể thay đổi chi tiết từ ngữ cảnh không có trong hình ảnh nguồn, do bản chất thô của Tự mã hóa biến phân (VAE) được sử dụng trong các mô hình điển hình được đào tạo trên dữ liệu siêu quy mô.

‘Giống như các phương pháp tạo sinh khác, phương pháp của chúng tôi có thể loại bỏ một số tính năng hình ảnh trong khi tổng hợp thông tin tương tự ở phía nhận, trong một số trường hợp cụ thể, điều này có thể dẫn đến việc tái tạo không chính xác, chẳng hạn như làm cong các đường thẳng hoặc biến dạng ranh giới của các vật thể nhỏ.

‘Những vấn đề này đã được biết đến của mô hình nền tảng mà chúng tôi xây dựng, có thể được quy cho chiều kích thước tính năng tương đối thấp của VAE.’

Mặc dù điều này có một số ý nghĩa đối với các hình ảnh nghệ thuật và tính xác thực của các bức ảnh thông thường, nhưng nó có thể có tác động quan trọng hơn trong các trường hợp mà các chi tiết nhỏ cấu thành thông tin thiết yếu, chẳng hạn như bằng chứng cho các vụ án tòa án, dữ liệu cho nhận dạng khuôn mặt, quét cho Nhận dạng Ký tự Quang học (OCR) và nhiều trường hợp sử dụng có thể khác, trong trường hợp codec có khả năng này trở nên phổ biến.

Tại giai đoạn sơ khai của tiến bộ trí tuệ nhân tạo trong nén hình ảnh, tất cả các kịch bản này đều nằm trong tương lai. Tuy nhiên, lưu trữ hình ảnh là một thách thức toàn cầu siêu quy mô, liên quan đến các vấn đề lưu trữ dữ liệu, truyền phát và tiêu thụ điện, ngoài các mối quan tâm khác. Do đó, nén dựa trên trí tuệ nhân tạo có thể cung cấp một sự đánh đổi hấp dẫn giữa độ chính xác và hậu cần. Lịch sử cho thấy rằng các codec tốt nhất không luôn giành được cơ sở người dùng rộng nhất, khi các vấn đề như cấp phép và chiếm lĩnh thị trường bởi các định dạng độc quyền là các yếu tố trong việc áp dụng.

Disney đã thử nghiệm máy học như một phương pháp nén trong một thời gian dài. Vào năm 2020, một trong những nhà nghiên cứu trong bài báo mới đã tham gia vào một dự án dựa trên VAE để cải thiện nén video.

Bài báo mới của Disney đã được cập nhật vào đầu tháng 10. Hôm nay, công ty đã phát hành một video trên YouTube đi kèm. Dự án được gọi là Nén Hình ảnh Mất với Mô hình Khuếch tán Nền tảng, và đến từ bốn nhà nghiên cứu tại ETH Zürich (liên kết với các dự án trí tuệ nhân tạo của Disney) và Nghiên cứu Disney. Các nhà nghiên cứu cũng cung cấp một bài báo bổ sung.

Phương pháp

Phương pháp mới sử dụng một VAE để mã hóa hình ảnh thành biểu diễn tiềm ẩn nén của nó. Tại giai đoạn này, hình ảnh đầu vào bao gồm các tính năng tiềm ẩn – các biểu diễn vector cấp thấp. Biểu diễn tiềm ẩn sau đó được lượng hóa trở lại thành dòng bit, và trở lại không gian pixel.

Hình ảnh lượng hóa này sau đó được sử dụng như một mẫu cho tiếng ồn thường kích hoạt một hình ảnh dựa trên khuếch tán, với số bước làm sạch nhiễu thay đổi (trong đó thường có sự đánh đổi giữa tăng số bước làm sạch nhiễu và độ chính xác cao hơn, so với độ trễ thấp hơn và hiệu quả cao hơn).

Sơ đồ cho phương pháp nén mới của Disney.

Cả tham số lượng hóa và tổng số bước làm sạch nhiễu có thể được kiểm soát trong hệ thống mới, thông qua việc đào tạo một mạng nơ-ron dự đoán các biến số liên quan đến các khía cạnh của quá trình mã hóa. Quá trình này được gọi là lượng hóa thích ứng, và hệ thống Disney sử dụng khuôn khổ Entroformer làm mô hình entropy cho thủ tục.

Các tác giả tuyên bố:

‘Một cách trực quan, phương pháp của chúng tôi học cách loại bỏ thông tin (thông qua biến đổi lượng hóa) có thể được tổng hợp trong quá trình khuếch tán. Vì các lỗi được giới thiệu trong quá trình lượng hóa tương tự như việc thêm tiếng ồn và các mô hình khuếch tán là chức năng làm sạch nhiễu, chúng có thể được sử dụng để loại bỏ tiếng ồn lượng hóa được giới thiệu trong quá trình mã hóa.’

Stable Diffusion V2.1 là xương sống khuếch tán cho hệ thống, được chọn vì toàn bộ mã và trọng số cơ bản đều có sẵn công khai. Tuy nhiên, các tác giả nhấn mạnh rằng sơ đồ của họ có thể áp dụng cho nhiều mô hình hơn.

Quan trọng cho kinh tế của quá trình là đánh giá bước thời gian, đánh giá số bước làm sạch nhiễu tối ưu – một hành động cân bằng giữa hiệu quả và hiệu suất.

Dự đoán bước thời gian, với số bước làm sạch nhiễu tối ưu được chỉ định bằng đường viền đỏ. Vui lòng tham khảo tệp PDF nguồn để có độ phân giải chính xác.

Số lượng tiếng ồn trong biểu diễn tiềm ẩn cần được xem xét khi thực hiện dự đoán về số bước làm sạch nhiễu tối ưu.

Dữ liệu và Thử nghiệm

Mô hình được đào tạo trên tập dữ liệu Vimeo-90k. Các hình ảnh được cắt ngẫu nhiên thành 256x256px cho mỗi epoch (tức là mỗi lần tiêu thụ hoàn chỉnh của kiến trúc đào tạo mô hình đối với tập dữ liệu tinh chỉnh).

Mô hình được tối ưu hóa trong 300.000 bước tại tốc độ học là 1e-4. Đây là điều phổ biến nhất trong các dự án học máy, và cũng là giá trị thấp nhất và tinh vi nhất chung, như một sự thỏa hiệp giữa sự khái quát rộng của các khái niệm và đặc điểm của tập dữ liệu và khả năng tái tạo chi tiết tốt.

Các tác giả bình luận về một số xem xét hậu cần cho một hệ thống hiệu quả nhưng hiệu quả:

‘Trong quá trình đào tạo, việc truyền ngược gradient thông qua nhiều lần chạy của mô hình khuếch tán khi nó chạy trong lấy mẫu DDIM là không thể thực hiện được về mặt chi phí. Do đó, chúng tôi chỉ thực hiện một lần lấy mẫu DDIM và sử dụng trực tiếp [nó] làm dữ liệu đã làm sạch hoàn toàn.’

Các tập dữ liệu được sử dụng để thử nghiệm hệ thống bao gồm Kodak; CLIC2022; và COCO 30k. Tập dữ liệu đã được tiền xử lý theo phương pháp được nêu trong bài báo năm 2023 của Google Nén Hình ảnh Đa Thực tế với Máy tạo có Điều kiện.

Các chỉ số được sử dụng bao gồm Tỷ lệ Tín hiệu trên Nhiễu Đỉnh (PSNR); Chỉ số Tương tự Nhận thức đã Học (LPIPS); Chỉ số Tương tự Cấu trúc Đa quy mô (MS-SSIM); và Khoảng cách Inception Fréchet (FID).

Các khuôn khổ trước đó được thử nghiệm được chia thành các hệ thống cũ hơn sử dụng Mạng đối lập Generative (GAN) và các đề xuất gần đây hơn dựa trên các mô hình khuếch tán. Các hệ thống GAN được thử nghiệm bao gồm Nén Hình ảnh Tạo sinh Chất lượng cao (HiFiC); và ILLM (cung cấp một số cải tiến so với HiFiC).

Các hệ thống dựa trên khuếch tán được Nén Hình ảnh Mất với Mô hình Khuếch tán Điều kiện (CDC) và Nén Hình ảnh Chất lượng cao với Mô hình Tạo dựa trên Điểm (HFD).

Kết quả định lượng so với các khuôn khổ trước đó trên các tập dữ liệu khác nhau.

Đối với kết quả định lượng (được trực quan hóa ở trên), các nhà nghiên cứu tuyên bố:

‘Phương pháp của chúng tôi thiết lập một trạng thái mới của nghệ thuật trong tính thực tế của hình ảnh được tái tạo, vượt trội so với tất cả các phương pháp cơ bản trong các đường cong bitrate FID. Trong một số chỉ số biến dạng (chủ yếu là LPIPS và MS-SSIM), chúng tôi vượt trội so với tất cả các codec dựa trên khuếch tán trong khi vẫn cạnh tranh với các codec tạo sinh có hiệu suất cao nhất.

‘Như mong đợi, phương pháp của chúng tôi và các phương pháp tạo sinh khác phải chịu đựng khi được đo bằng PSNR vì chúng tôi ưu tiên các bản tái tạo hấp dẫn về mặt nhận thức thay vì sao chép chính xác chi tiết.’

Đối với nghiên cứu người dùng, một phương pháp lựa chọn thay thế bắt buộc hai (2AFC) được sử dụng, trong một bối cảnh giải đấu nơi các hình ảnh được ưa chuộng sẽ đi đến các vòng sau. Nghiên cứu sử dụng hệ thống đánh giá Elo ban đầu được phát triển cho các giải đấu cờ vua.

Do đó, người tham gia sẽ xem và chọn hình ảnh tốt nhất trong hai hình ảnh được trình bày 512x512px trên các phương pháp tạo sinh khác nhau. Một thí nghiệm bổ sung cũng được thực hiện, trong đó tất cả so sánh hình ảnh từ cùng một người dùng được đánh giá, thông qua một mô phỏng Monte Carlo trong 10.000 lần lặp lại, với điểm trung vị được trình bày trong kết quả.

Đánh giá Elo ước tính cho nghiên cứu người dùng, với giải đấu Elo cho mỗi so sánh (bên trái) và cũng cho mỗi người tham gia, với giá trị cao hơn tốt hơn.

Tại đây, các tác giả bình luận:

‘Như có thể thấy trong các điểm Elo, phương pháp của chúng tôi vượt trội đáng kể so với tất cả các phương pháp khác, ngay cả so với CDC, sử dụng trung bình gấp đôi số bit của phương pháp của chúng tôi. Điều này vẫn đúng bất kể chiến lược giải đấu Elo được sử dụng.’

Trong bài báo gốc, cũng như trong bài báo bổ sung, các tác giả cung cấp thêm các so sánh trực quan, một trong số đó được hiển thị ở đầu bài báo này. Tuy nhiên, do sự khác biệt tinh tế giữa các mẫu, chúng tôi đề nghị người đọc tham khảo tệp PDF nguồn, để những kết quả này có thể được đánh giá một cách công bằng.

Bài báo kết thúc bằng việc lưu ý rằng phương pháp được đề xuất của họ hoạt động nhanh gấp hai lần so với CDC (3,49 so với 6,87 giây, tương ứng). Nó cũng quan sát thấy rằng ILLM có thể xử lý một hình ảnh trong 0,27 giây, nhưng hệ thống này yêu cầu đào tạo tốn kém.

Kết luận

Các nhà nghiên cứu ETH/Disney rõ ràng, tại kết thúc của bài báo, về khả năng của hệ thống để tạo ra chi tiết giả. Tuy nhiên, không có mẫu nào trong tài liệu tập trung vào vấn đề này.

Một cách công bằng, vấn đề này không chỉ giới hạn ở phương pháp mới của Disney, mà là một tác dụng phụ không thể tránh khỏi của việc sử dụng các mô hình khuếch tán – một kiến trúc sáng tạo và giải thích – để nén hình ảnh.

Đáng chú ý, chỉ năm ngày trước, hai nhà nghiên cứu khác từ ETH Zurich đã tạo ra một bài báo có tiêu đề Hoang tưởng có Điều kiện cho Nén Hình ảnh, điều này xem xét khả năng của ‘mức ảo hóa tối ưu’ trong các hệ thống nén dựa trên trí tuệ nhân tạo.

Các tác giả ở đó lập luận về sự mong muốn của các ảo hóa trong trường hợp miền là chung (và, có thể nói, ‘harmless’) đủ:

‘Đối với nội dung giống như kết cấu, chẳng hạn như cỏ, tàn nhang và tường đá, việc tạo pixel khớp với một kết cấu nhất định là quan trọng hơn việc tái tạo giá trị pixel chính xác; tạo ra bất kỳ mẫu nào từ phân phối của một kết cấu nói chung là đủ.’

Do đó, bài báo thứ hai lập luận về sự mong muốn của nén để được ‘sáng tạo’ và đại diện, thay vì tái tạo chính xác nhất có thể các đặc điểm và đường nét cốt lõi của hình ảnh không nén ban đầu.

Người ta tự hỏi cộng đồng nhiếp ảnh và sáng tạo sẽ nghĩ gì về định nghĩa lại ‘nén’ khá cực đoan này.

*Chuyển đổi trích dẫn nội tuyến của tác giả thành siêu liên kết của tôi.

Được xuất bản lần đầu vào thứ Tư, ngày 30 tháng 10 năm 2024

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]