Trí tuệ nhân tạo

Chỉnh sửa Không gian Latent của GAN với ‘Blobs’

Published May 8, 2022

Updated April 5, 2026

Martin Anderson

Nghiên cứu mới từ UC Berkeley và Adobe cung cấp một cách để chỉnh sửa trực tiếp nội dung siêu thực mà có thể được tạo bởi một Mạng Đối nghịch Generative (GAN), nhưng thường không thể kiểm soát, hoạt hình, hoặc thao tác tự do theo cách quen thuộc với người dùng Photoshop và các nhà thực hành CGI.

Được đặt tên BlobGAN, phương pháp này liên quan đến việc tạo một lưới các ‘blobs’ – các cấu trúc toán học mà ánh xạ trực tiếp đến nội dung trong không gian latent của GAN.

Bằng cách di chuyển các blobs, bạn có thể di chuyển ‘đối tượng’ trong một biểu diễn cảnh, theo một cách trực quan gần với các phương pháp CGI và CAD hơn là nhiều nỗ lực hiện tại để ánh xạ và kiểm soát không gian latent của GAN:

Thao tác cảnh với BlobGAN: khi các ‘blobs’ được di chuyển bởi người dùng, sự sắp xếp của các đối tượng và phong cách latent trong GAN được thay đổi tương ứng. Để xem thêm các ví dụ, hãy xem video đi kèm tại cuối bài viết này, hoặc tại https://www.youtube.com/watch?v=KpUv82VsU5k

Vì các blobs tương ứng với ‘đối tượng’ trong cảnh được ánh xạ trong không gian latent của GAN, tất cả các đối tượng đều được tách rời a priori, làm cho nó có thể thay đổi chúng riêng biệt:

Các đối tượng có thể được thay đổi kích thước, thu nhỏ, nhân bản và xóa, trong số các thao tác khác.

Giống như bất kỳ đối tượng nào trong phần mềm chỉnh sửa ảnh (hoặc thậm chí phần mềm chỉnh sửa văn bản), một blob có thể được nhân bản và sau đó được thao tác:

Các blobs có thể được nhân bản trong giao diện, và các biểu diễn latent tương ứng sẽ cũng được ‘sao chép và dán’. Nguồn: https://dave.ml/blobgan/#results

BlobGAN cũng có thể phân tích các hình ảnh mới, được người dùng chọn, vào không gian latent của nó:

Với BlobGAN, bạn không cần phải kết hợp các hình ảnh mà bạn muốn thao tác trực tiếp vào dữ liệu đào tạo và sau đó tìm kiếm mã latent của chúng, nhưng có thể nhập các hình ảnh được chọn tại sẽ và thao tác chúng. Nguồn: https://dave.ml/blobgan/#results

Có thể xem thêm kết quả tại đây, và trong video đi kèm trên YouTube đây (đính kèm tại cuối bài viết này). Ngoài ra, còn có một demo Colab tương tác đây*, và một repo GitHub đây**.

Loại công cụ và phạm vi này có thể seem naiv trong thời đại hậu-Photoshop, và các gói phần mềm tham số như Cinema4D và Blender đã cho phép người dùng tạo và tùy chỉnh các thế giới 3D trong nhiều thập kỷ; nhưng nó đại diện cho một cách tiếp cận đầy hứa hẹn để thuần hóa các đặc điểm và tính chất bí ẩn của không gian latent trong một Mạng Đối nghịch Generative, bằng cách sử dụng các thực thể trung gian được ánh xạ đến mã latent.

Các tác giả khẳng định:

‘Trên một tập dữ liệu đa thể loại thách thức của các cảnh trong nhà, BlobGAN vượt trội so với Style-GAN2 về chất lượng hình ảnh được đo bằng FID.’

Bài báo đây có tiêu đề BlobGAN: Biểu diễn Cảnh Tách rời Không gian, và được viết bởi hai nhà nghiên cứu từ UC Berkeley, cùng với ba người từ Adobe Research.

Trung gian

BlobGAN mang lại một mô hình mới cho tổng hợp hình ảnh GAN. Các phương pháp trước đây để giải quyết các thực thể rời rạc trong không gian latent, bài báo mới chỉ ra, đã được thực hiện theo cách ‘từ trên xuống’ hoặc ‘từ dưới lên’.

Một phương pháp từ trên xuống trong một GAN hoặc bộ phân loại hình ảnh xử lý hình ảnh của các cảnh như các lớp, chẳng hạn như ‘phòng ngủ’, ‘nhà thờ’, ‘mặt’, v.v. Loại ghép văn bản/hình ảnh này cung cấp năng lượng cho một thế hệ mới của các khuôn khổ tổng hợp hình ảnh đa phương tiện, chẳng hạn như DALL-E 2 gần đây từ OpenAI.

Các phương pháp từ dưới lên, thay vào đó, ánh xạ mỗi pixel trong hình ảnh vào một lớp, nhãn hoặc thể loại. Các phương pháp này sử dụng các kỹ thuật đa dạng, mặc dù phân đoạn ngữ nghĩa là một dòng nghiên cứu phổ biến hiện tại.

Các tác giả nhận xét:

‘Cả hai con đường dường như không thỏa mãn vì không có cách nào cung cấp cách dễ dàng để suy luận về các phần của cảnh như các thực thể. Các phần của cảnh hoặc được nướng vào một vectơ latent kết hợp duy nhất (từ trên xuống), hoặc cần được nhóm lại từ các nhãn pixel riêng lẻ (từ dưới lên).’

Thay vào đó, BlobGAN cung cấp một biểu diễn trung gian không giám sát, hoặc khuôn khổ trung gian cho các mô hình generative.

Mạng lưới bố cục ánh xạ các thực thể ‘blob’ cục bộ (và có thể kiểm soát) đến mã latent. Các vòng tròn màu ở trung tâm tạo thành một ‘bản đồ blob’. Nguồn: https://arxiv.org/pdf/2205.02837.pdf

Các blobs Gaussian (tức là dựa trên nhiễu) được sắp xếp theo độ sâu, và đại diện cho một nút thắt trong kiến trúc mà gán một ánh xạ đến từng thực thể, giải quyết chướng ngại vật lớn nhất trong thao tác nội dung GAN: tách rời (cũng một vấn đề cho các kiến trúc dựa trên bộ tự mã hóa). ‘Bản đồ blob’ kết quả được sử dụng để thao tác bộ giải mã BlobGAN.

Các tác giả lưu ý với một chút ngạc nhiên rằng hệ thống học cách phân hủy các cảnh thành bố cục và thực thể thông qua một bộ phân biệt off-the-shelf mà không sử dụng các nhãn rõ ràng.

Kiến trúc và Dữ liệu

Các thực thể trong bản đồ blob được chuyển đổi thành hình ảnh thông qua một mạng lưới StyleGAN2 sửa đổi đây, trong một cách tiếp cận lấy cảm hứng từ nghiên cứu trước đây của NVIDIA.

Một phiên bản sửa đổi của StyleGAN 2 từ NVIDIA Research. Một số nguyên tắc trong công việc này đã được áp dụng hoặc thích nghi cho BlobGAN. Nguồn: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 được sửa đổi trong BlobGAN để chấp nhận đầu vào từ bản đồ blob thay vì một vectơ toàn cầu duy nhất, như thường thấy.

Một loạt các thao tác được thực hiện có thể bằng BlobGAN, bao gồm cả ‘tự hoàn thành’ của một cảnh phòng ngủ trống, và thay đổi kích thước và di chuyển các yếu tố trong phòng. Trong hàng dưới, chúng ta thấy công cụ có thể truy cập được của người dùng cho phép điều này – bản đồ blob.

Bằng cách tương tự, thay vì tạo ra một tòa nhà khổng lồ và phức tạp (không gian latent) vào sự tồn tại đồng thời, và sau đó phải khám phá các con đường không ngừng của nó, BlobGAN gửi các khối xây dựng vào từ đầu, và luôn biết chúng ở đâu. Sự tách rời này của nội dung và vị trí là sự đổi mới chính của công việc.

* Không hoạt động tại thời điểm viết
** Mã không được xuất bản tại thời điểm viết

Được xuất bản lần đầu tiên vào ngày 8 tháng 5 năm 2022.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Chỉnh sửa Không gian Latent của GAN với ‘Blobs’

Trung gian

Kiến trúc và Dữ liệu

You may like