Trí tuệ nhân tạo

Ngành Tổng hợp Hình ảnh Đã Applies Một Chỉ số Khiếm khuyết, Nghiên cứu Claims

Published December 20, 2021

Updated April 28, 2026

Martin Anderson

2021 đã là một năm của sự tiến bộ chưa từng có và tốc độ xuất bản nhanh chóng trong lĩnh vực tổng hợp hình ảnh, cung cấp một dòng các đổi mới và cải tiến mới trong các công nghệ có khả năng tái tạo nhân cách con người thông qua neural rendering, deepfakes, và một loạt các phương pháp mới.

Tuy nhiên, các nhà nghiên cứu từ Đức hiện nay cho rằng tiêu chuẩn được sử dụng để tự động đánh giá tính thực tế của hình ảnh tổng hợp là có khuyết tật; và rằng hàng trăm, thậm chí hàng nghìn nhà nghiên cứu trên toàn thế giới phụ thuộc vào nó để cắt giảm chi phí đánh giá kết quả dựa trên con người có thể đang đi theo con đường mù.

Để chứng minh tiêu chuẩn, Fréchet Inception Distance (FID), không đáp ứng được tiêu chuẩn của con người trong việc đánh giá hình ảnh, các nhà nghiên cứu đã triển khai các GAN của riêng họ, được tối ưu hóa cho FID (bây giờ là một chỉ số phổ biến). Họ phát hiện ra rằng FID đang theo đuổi những ám ảnh của riêng nó, dựa trên mã cơ bản với một mục đích khác với tổng hợp hình ảnh, và nó thường không đạt được tiêu chuẩn ‘con người’ về sự phân biệt:

FID scores (lower is better) for images generated by various models using standard datasets and architectures. The researchers of the new paper pose the question ‘Would you agree with these rankings?’. Source: https://openreview.net/pdf?id=mLG96UpmbYz

Ngoài việc khẳng định rằng FID không phù hợp với nhiệm vụ dự kiến, bài báo còn đề xuất rằng ‘biện pháp rõ ràng’, chẳng hạn như thay thế động cơ nội bộ của nó bằng các động cơ cạnh tranh, sẽ chỉ trao đổi một tập hợp các thiên vị này với một tập hợp khác. Các tác giả đề xuất rằng bây giờ thuộc về các sáng kiến nghiên cứu mới để phát triển các chỉ số tốt hơn để đánh giá ‘tính xác thực’ trong ảnh được tạo tổng hợp.

Bài báo bài báo được đặt tên là Internalized Biases in Fréchet Inception Distance, và đến từ Steffen Jung tại Viện Thông tin Max Planck tại Saarland, và Margret Keuper, Giáo sư về Máy tính Hình ảnh tại Đại học Siegen.

Tìm kiếm Hệ thống Đánh giá cho Tổng hợp Hình ảnh

Như nghiên cứu mới lưu ý, tiến bộ trong các khuôn khổ tổng hợp hình ảnh, chẳng hạn như GAN và kiến trúc mã hóa / giải mã, đã vượt qua các phương pháp mà kết quả của các hệ thống này có thể được đánh giá. Ngoài việc tốn kém và do đó khó mở rộng, đánh giá của con người về đầu ra của các hệ thống này không cung cấp một phương pháp đánh giá thực nghiệm và có thể tái tạo.

Do đó, một số khuôn khổ chỉ số đã xuất hiện, bao gồm Inception Score (IS), được giới thiệu trong bài báo Improved Techniques for Training GANs, đồng tác giả bởi GAN đồng sáng lập, Ian Goodfellow.

Việc mất uy tín của điểm số IS như một chỉ số áp dụng rộng rãi cho nhiều mạng GAN vào năm 2018 đã dẫn đến việc áp dụng rộng rãi FID trong cộng đồng tổng hợp hình ảnh GAN. Tuy nhiên, giống như Inception Score, FID dựa trên mạng phân loại hình ảnh Inception v3 (IV3) của Google.

Các tác giả của bài báo mới cho rằng Fréchet Inception Distance truyền播 các thiên vị có hại trong IV3, dẫn đến việc phân loại chất lượng hình ảnh không đáng tin cậy.

Vì FID có thể được kết hợp vào một khuôn khổ học máy như một bộ phân biệt (một ‘hàng ghế’ nhúng quyết định xem GAN có hoạt động tốt hay nên ‘thử lại’), nó cần phải đại diện chính xác cho các tiêu chuẩn mà con người sẽ áp dụng khi đánh giá hình ảnh.

Fréchet Inception Distance

FID so sánh cách các tính năng được phân phối trên tập dữ liệu đào tạo được sử dụng để tạo mô hình GAN (hoặc chức năng tương tự) và kết quả của hệ thống đó.

Do đó, nếu một khuôn khổ GAN được đào tạo trên 10.000 hình ảnh của (ví dụ) những người nổi tiếng, FID so sánh hình ảnh gốc (thực) với hình ảnh giả được tạo bởi GAN. Điểm FID càng thấp, GAN càng gần với hình ảnh ‘phóng sự’ theo tiêu chí của FID.

Từ bài báo, kết quả của một GAN được đào tạo trên FFHQ64, một tập con của tập dữ liệu FFHQ rất phổ biến của NVIDIA. Ở đây, mặc dù điểm FID là 5,38 rất thấp, kết quả không hấp dẫn hoặc thuyết phục đối với con người trung bình.

Từ bài báo, kết quả của một GAN được đào tạo trên FFHQ64, một tập con của tập dữ liệu FFHQ rất phổ biến của FFHQ dataset. Ở đây, mặc dù điểm FID là 5,38 rất thấp, kết quả không hấp dẫn hoặc thuyết phục đối với con người trung bình.

Vấn đề, các tác giả cho rằng, là Inception v3, những giả định của nó cung cấp năng lượng cho Fréchet Inception Distance, không nhìn vào đúng nơi – ít nhất, không khi xem xét nhiệm vụ tại tay.

Inception V3 được đào tạo trên thử thách nhận dạng đối tượng ImageNet, một nhiệm vụ có thể không phù hợp với cách mà mục tiêu của tổng hợp hình ảnh đã phát triển trong những năm gần đây. IV3 thách thức sự mạnh mẽ của một mô hình bằng cách thực hiện tăng cường dữ liệu: nó lật hình ảnh một cách ngẫu nhiên, cắt chúng thành một tỷ lệ ngẫu nhiên giữa 8-100%, thay đổi tỷ lệ khía cạnh (trong một phạm vi từ 3/4 đến 4/3), và tiêm ngẫu nhiên các biến dạng màu liên quan đến độ sáng, độ bão hòa và độ tương phản.

Các nhà nghiên cứu dựa tại Đức đã tìm thấy rằng IV3 có xu hướng ưa thích việc trích xuất các cạnh và kết cấu, chứ không phải thông tin màu sắc và cường độ, điều này sẽ là những chỉ số có ý nghĩa hơn về tính xác thực cho hình ảnh tổng hợp; và rằng mục đích ban đầu của nó để phát hiện đối tượng đã được sử dụng không phù hợp cho một nhiệm vụ không phù hợp. Các tác giả tuyên bố*:

‘[Inception v3] có thiên vị towards việc trích xuất các tính năng dựa trên các cạnh và kết cấu chứ không phải thông tin màu sắc và cường độ. Điều này phù hợp với đường ống tăng cường của nó, nó giới thiệu các biến dạng màu, nhưng giữ nguyên thông tin tần số cao (ngược lại với, ví dụ, tăng cường với Gaussian blur).

‘Do đó, FID kế thừa thiên vị này. Khi được sử dụng như một chỉ số xếp hạng, các mô hình tạo ra kết cấu tốt có thể được ưu tiên hơn các mô hình tạo ra phân phối màu tốt.’

Dữ liệu và Phương pháp

Để kiểm tra giả thuyết của mình, các tác giả đã đào tạo hai kiến trúc GAN, DCGAN và SNGAN, trên tập dữ liệu hình ảnh khuôn mặt người FFHQ của NVIDIA, giảm kích thước xuống độ phân giải hình ảnh 64², với tập dữ liệu được gọi là FFHQ64.

Ba thủ tục đào tạo GAN đã được thực hiện: GAN G+D, một mạng dựa trên bộ phân biệt tiêu chuẩn; GAN FID|G+D, nơi FID hoạt động như một bộ phân biệt bổ sung; và GAN FID|G. nơi GAN được cung cấp hoàn toàn bởi điểm FID lăn.

Về mặt kỹ thuật, các tác giả lưu ý, mất FID nên ổn định quá trình đào tạo, và thậm chí có thể thay thế hoàn toàn bộ phân biệt (như nó làm trong #3, GAN FID|G), trong khi xuất ra kết quả hấp dẫn đối với con người.

Trong thực tế, kết quả khá khác, với – các tác giả suy đoán – các mô hình hỗ trợ FID ‘quá trình phù hợp’ với các chỉ số sai. Các nhà nghiên cứu lưu ý:

‘Chúng tôi suy đoán rằng bộ tạo học để tạo ra các tính năng không phù hợp để phù hợp với phân phối dữ liệu đào tạo. Quan sát này trở nên nghiêm trọng hơn trong trường hợp [GAN FID|G] . Ở đây, chúng tôi nhận thấy rằng sự thiếu bộ phân biệt dẫn đến phân phối tính năng không gian không nhất quán. Ví dụ [SNGAN FID|G] thêm hầu hết các mắt đơn và sắp xếp các đặc điểm khuôn mặt theo một cách đáng sợ.’

Ví dụ về khuôn mặt được tạo bởi SNGAN FID|G.

Các tác giả kết luận*:

‘Trong khi các nhà chú thích con người chắc chắn sẽ thích hình ảnh được tạo bởi SNGAN D+G hơn SNGAN FID|G (trong các trường hợp mà tính trung thực của dữ liệu được ưu tiên hơn nghệ thuật), chúng tôi thấy rằng điều này không được phản ánh bởi FID. Do đó, FID không được liên kết với nhận thức của con người.

‘Chúng tôi lập luận rằng các tính năng phân biệt được cung cấp bởi các mạng phân loại hình ảnh là không đủ để cung cấp cơ sở cho một chỉ số có ý nghĩa.’

Không có Giải pháp Thay thế Dễ dàng

Các tác giả cũng phát hiện ra rằng việc thay thế Inception V3 bằng một động cơ tương tự không giải quyết được vấn đề. Trong việc thay thế IV3 bằng ‘một lựa chọn rộng rãi các mạng phân loại khác’, được kiểm tra chống lại ImageNet-C (một tập con của ImageNet được thiết kế để đánh giá các sai sót và nhiễu loạn phổ biến được tạo ra trong đầu ra hình ảnh từ các khuôn khổ tổng hợp hình ảnh), các nhà nghiên cứu không thể cải thiện đáng kể kết quả của họ:

‘[Thiên vị] có trong Inception v3 cũng được tìm thấy rộng rãi trong các mạng phân loại khác. Ngoài ra, chúng tôi thấy rằng các mạng khác sẽ tạo ra các xếp hạng khác nhau giữa các loại hư hỏng.’

Các tác giả kết thúc bài báo với hy vọng rằng các nghiên cứu đang diễn ra sẽ phát triển một ‘chỉ số liên kết với con người và không thiên vị’ có khả năng cho phép một xếp hạng công bằng hơn cho các kiến trúc tạo hình ảnh.

* Tác giả nhấn mạnh.

Được xuất bản lần đầu vào ngày 20 tháng 12 năm 2021, 1 giờ GMT+2.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Ngành Tổng hợp Hình ảnh Đã Applies Một Chỉ số Khiếm khuyết, Nghiên cứu Claims

Tìm kiếm Hệ thống Đánh giá cho Tổng hợp Hình ảnh

Fréchet Inception Distance

Dữ liệu và Phương pháp

Không có Giải pháp Thay thế Dễ dàng

You may like