Trí tuệ nhân tạo

Lợi ích không lường trước của việc lập bản đồ không gian tiềm ẩn của GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Trong khi cố gắng cải thiện chất lượng và độ trung thực của hình ảnh được tạo ra bởi AI, một nhóm các nhà nghiên cứu từ Trung Quốc và Úc đã vô tình phát hiện ra một phương pháp để kiểm soát tương tác không gian tiềm ẩn của một Mạng đối nghịch sinh tạo (GAN) – ma trận tính toán bí ẩn đằng sau làn sóng mới của các kỹ thuật tổng hợp hình ảnh sẽ cách mạng hóa điện ảnh, trò chơi, truyền thông xã hội và nhiều lĩnh vực khác trong giải trí và nghiên cứu.

Phát hiện của họ, một sản phẩm phụ của mục tiêu trung tâm của dự án, cho phép người dùng tùy ý và tương tác khám phá không gian tiềm ẩn của GAN bằng chuột, như khi scrub qua một video hoặc lật qua một cuốn sách.

Một đoạn trích từ video đi kèm của các nhà nghiên cứu (xem phần cuối của bài viết). Lưu ý rằng người dùng đang điều khiển các biến đổi với con trỏ 'grab' (trên cùng bên trái).

Một đoạn trích từ video đi kèm của các nhà nghiên cứu (xem phần cuối của bài viết cho nhiều ví dụ hơn). Lưu ý rằng người dùng đang điều khiển các biến đổi với con trỏ ‘grab’ (trên cùng bên trái). Nguồn: https://www.youtube.com/watch?v=k7sG4XY5rIc

Phương pháp này sử dụng ‘bản đồ nhiệt’ để chỉ ra các khu vực của hình ảnh nên được cải thiện khi GAN chạy qua cùng một tập dữ liệu hàng nghìn (hoặc hàng trăm nghìn) lần. Các bản đồ nhiệt được thiết kế để cải thiện chất lượng hình ảnh bằng cách thông báo cho GAN biết nó đang làm sai ở đâu, để lần thử tiếp theo sẽ tốt hơn; nhưng, đồng thời, điều này cũng cung cấp một ‘bản đồ’ của toàn bộ không gian tiềm ẩn mà có thể được duyệt bằng cách di chuyển chuột.

Chú ý thị giác không gian được nhấn mạnh thông qua GradCAM, chỉ ra các khu vực cần chú ý bằng cách áp dụng màu sáng. Nguồn: https://arxiv.org/pdf/2112.00718.pdf

Bài báo này có tên Cải thiện sự cân bằng của GAN bằng cách nâng cao nhận thức không gian, và đến từ các nhà nghiên cứu tại Đại học Hồng Kông, Trung Quốc và Đại học Quốc gia Úc. Ngoài bài báo, video và các tài liệu khác có thể được tìm thấy tại trang dự án.

Công việc này vẫn còn trong giai đoạn đầu, và hiện tại chỉ giới hạn ở hình ảnh độ phân giải thấp (256×256), nhưng nó là một bằng chứng về khái niệm hứa hẹn sẽ phá vỡ ‘hộp đen’ của không gian tiềm ẩn, và đến vào thời điểm khi nhiều dự án nghiên cứu đang cố gắng kiểm soát tốt hơn việc tổng hợp hình ảnh.

Mặc dù những hình ảnh như vậy rất hấp dẫn (và bạn có thể xem thêm chúng, với độ phân giải tốt hơn, trong video được nhúng ở cuối bài viết này), điều quan trọng hơn có lẽ là dự án đã tìm ra cách tạo ra chất lượng hình ảnh tốt hơn, và có thể làm điều đó nhanh hơn, bằng cách thông báo cho GAN biết cụ thể nó đang làm sai ở đâu trong quá trình đào tạo.

Nhưng, như Đối nghịch chỉ ra, GAN không phải là một thực thể đơn lẻ, mà là một cuộc xung đột không cân bằng giữa quyền lực và sự nhàm chán. Để hiểu được những cải tiến mà các nhà nghiên cứu đã thực hiện trong khía cạnh này, hãy xem xét cách cuộc chiến này đã được đặc trưng cho đến nay.

Số phận đáng thương của Bộ tạo

Nếu bạn đã từng bị ám ảnh bởi suy nghĩ rằng một món đồ mới mà bạn mua được sản xuất trong một nhà máy bóc lột ở một quốc gia bị bóc lột, hoặc có một ông chủ hoặc khách hàng luôn yêu cầu bạn ‘Làm lại!’ mà không bao giờ nói cho bạn biết điều gì là sai với nỗ lực cuối cùng của bạn, hãy dành một chút cảm thông cho Bộ tạo phần của một Mạng đối nghịch sinh tạo.

Bộ tạo là công cụ làm việc chăm chỉ đã giúp GAN tạo ra hình ảnh người thật như cuộc sống mà không tồn tại, nâng cấp trò chơi điện tử cũ lên độ phân giải 4k, và biến đoạn phim cũ thành đầu ra HD đầy màu sắc ở 60fps, trong số nhiều điều kỳ diệu khác của AI.

Từ việc tạo ra khuôn mặt thật như cuộc sống của những người không tồn tại đến việc khôi phục đoạn phim cũ và làm sống lại trò chơi điện tử lưu trữ, GAN đã bận rộn trong những năm qua.

Bộ tạo chạy qua tất cả dữ liệu đào tạo lại và lại (chẳng hạn như hình ảnh khuôn mặt, để tạo ra một GAN có thể tạo ra ảnh của những người không tồn tại), một bức ảnh tại một thời điểm, trong nhiều ngày, hoặc thậm chí nhiều tuần, cho đến khi nó có thể tạo ra hình ảnh thuyết phục như những bức ảnh thật mà nó đã nghiên cứu.

Vậy Bộ tạo biết nó đang làm tiến bộ như thế nào, mỗi lần nó cố gắng tạo ra một hình ảnh tốt hơn nỗ lực trước đó?

Bộ tạo có một ông chủ từ địa ngục.

Sự che giấu tàn nhẫn của Bộ phân biệt

Công việc của Bộ phân biệt là thông báo cho Bộ tạo rằng nó không làm đủ tốt trong việc tạo ra một hình ảnh đích thực với dữ liệu ban đầu, và để Làm lại. Bộ phân biệt không nói cho Bộ tạo biết điều gì là sai với nỗ lực cuối cùng của Bộ tạo; nó chỉ xem xét riêng hình ảnh, so sánh hình ảnh được tạo với hình ảnh nguồn (lại một lần nữa, riêng tư), và gán một điểm số cho hình ảnh.

Điểm số không bao giờ đủ tốt. Bộ phân biệt sẽ không ngừng nói ‘Làm lại’ cho đến khi các nhà khoa học nghiên cứu tắt nó (khi họ quyết định rằng đào tạo thêm sẽ không cải thiện đầu ra).

Trong cách này, vắng sự chỉ trích xây dựng, và chỉ được trang bị một điểm số mà thước đo là một bí ẩn, Bộ tạo phải đoán ngẫu nhiên những phần hoặc khía cạnh của hình ảnh gây ra một điểm số cao hơn trước. Điều này sẽ dẫn nó đến nhiều con đường không hài lòng hơn trước khi nó thay đổi một điều gì đó tích cực đủ để có được một điểm số cao hơn.

Bộ phân biệt như một người hướng dẫn và cố vấn

Đổi mới được cung cấp bởi nghiên cứu mới cơ bản là Bộ phân biệt bây giờ chỉ ra cho Bộ tạo những phần của hình ảnh là không hài lòng, để Bộ tạo có thể tập trung vào những khu vực đó trong lần lặp tiếp theo, và không vứt bỏ các phần được đánh giá cao hơn. Bản chất của mối quan hệ đã thay đổi từ đối đầu sang hợp tác.

Để khắc phục sự chênh lệch về kiến thức giữa Bộ phân biệt và Bộ tạo, các nhà nghiên cứu sử dụng GradCAM như một cơ chế có khả năng hình thành những hiểu biết của Bộ phân biệt thành một công cụ phản hồi trực觉 cho nỗ lực tiếp theo của Bộ tạo.

Phương pháp đào tạo mới được gọi là EqGAN. Để có tính tái tạo tối đa, các nhà nghiên cứu đã kết hợp các kỹ thuật và phương pháp hiện có với các thiết lập mặc định, bao gồm việc sử dụng kiến trúc StyleGan2.

Kiến trúc của EqGAN. Mã hóa không gian của Bộ tạo được căn chỉnh với nhận thức không gian của Bộ phân biệt, với các mẫu ngẫu nhiên của bản đồ nhiệt không gian (xem hình ảnh trước) được mã hóa lại vào Bộ tạo thông qua lớp mã hóa không gian (SEL). GradCAM là cơ chế mà qua đó các bản đồ chú ý của Bộ phân biệt được cung cấp cho Bộ tạo.

GradCAM tạo ra bản đồ nhiệt (xem hình ảnh trên) phản ánh sự chỉ trích của Bộ phân biệt về lần lặp cuối cùng, và làm cho điều này có sẵn cho Bộ tạo.

Một khi mô hình được đào tạo, bản đồ vẫn còn như một di sản của quá trình hợp tác này, nhưng cũng có thể được sử dụng để khám phá mã tiềm ẩn cuối cùng theo cách tương tác được trình diễn trong video dự án của các nhà nghiên cứu (xem dưới).

EqGAN

Dự án sử dụng một số tập dữ liệu phổ biến, bao gồm tập dữ liệu LSUN Cat và Churches, cũng như tập dữ liệu FFHQ. Video dưới đây cũng trình bày các ví dụ về việc điều khiển khuôn mặt và mèo bằng EqGAN.

Tất cả hình ảnh đều được thay đổi kích thước thành 256×256 trước khi đào tạo EqGAN trên triển khai chính thức của StyleGAN2. Mô hình được đào tạo với kích thước batch 64 trên 8 GPU cho đến khi Bộ phân biệt đã được tiếp xúc với hơn 25 triệu hình ảnh.

Khi kiểm tra kết quả của hệ thống trên các mẫu được chọn với khoảng cách Frechet Inception (FID), các tác giả đã thiết lập một chỉ số gọi là Chỉ số mất cân bằng (DI) – mức độ mà Bộ phân biệt vẫn giữ được lợi thế kiến thức so với Bộ tạo, với mục tiêu thu hẹp khoảng cách đó.

Trên ba tập dữ liệu được đào tạo, chỉ số mới này cho thấy sự giảm hữu ích sau khi mã hóa nhận thức không gian vào Bộ tạo, với sự cân bằng được cải thiện được chứng minh bởi cả FID và DI.

Các nhà nghiên cứu kết luận:

‘Chúng tôi hy vọng công việc này có thể truyền cảm hứng cho nhiều công việc khác về việc xem xét lại sự cân bằng của GAN và phát triển các phương pháp mới để cải thiện chất lượng tổng hợp hình ảnh thông qua việc điều khiển sự cân bằng của GAN. Chúng tôi cũng sẽ tiến hành nhiều điều tra lý thuyết hơn về vấn đề này trong công việc tương lai.’

Và tiếp tục:

‘Kết quả định tính cho thấy phương pháp của chúng tôi đã thành công trong việc [buộc Bộ tạo] tập trung vào các khu vực cụ thể. Thử nghiệm trên các tập dữ liệu khác nhau đã xác nhận rằng phương pháp của chúng tôi giảm thiểu sự mất cân bằng trong đào tạo GAN và cải thiện đáng kể chất lượng tổng hợp hình ảnh tổng thể. Mô hình kết quả với nhận thức không gian cũng cho phép điều khiển tương tác của hình ảnh đầu ra.’

Hãy xem video dưới đây để biết thêm chi tiết về dự án, và các ví dụ khác về việc khám phá động và tương tác không gian tiềm ẩn trong GAN.

11:12 sáng ngày 4 tháng 12 năm 2021 – Đã sửa URL cho GradCAM và dọn dẹp các tham chiếu xung quanh.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]