Trí tuệ nhân tạo

Tạo Mạng Lưới Đối Thủ Tạo Ra (GAN) Tùy Chỉnh Với Phác Họa

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Các nhà nghiên cứu từ Carnegie Mellon và MIT đã phát triển một phương pháp mới cho phép người dùng tạo ra hệ thống tạo ảnh tùy chỉnh của Mạng Lưới Đối Thủ Tạo Ra (GAN) chỉ bằng cách phác họa các bản vẽ đơn giản.

Hệ thống này có thể cho phép người dùng cuối tạo ra các hệ thống tạo ảnh có khả năng tạo ra các ảnh rất cụ thể, chẳng hạn như các loài động vật, loại tòa nhà – và thậm chí cả cá nhân. Hiện tại, hầu hết các hệ thống tạo ảnh GAN tạo ra đầu ra rộng và khá ngẫu nhiên, với khả năng hạn chế để chỉ định các đặc điểm cụ thể, chẳng hạn như giống loài động vật, kiểu tóc của con người, phong cách kiến trúc hoặc danh tính khuôn mặt thực sự.

Phương pháp, được mô tả trong bài báo Vẽ GAN Của Riêng Bạn, sử dụng một giao diện phác họa mới như một chức năng ‘tìm kiếm’ hiệu quả để tìm các tính năng và lớp trong cơ sở dữ liệu hình ảnh quá đầy đủ có thể chứa hàng nghìn loại đối tượng, bao gồm nhiều loại con không liên quan đến ý định của người dùng. Sau đó, GAN được đào tạo trên tập hợp con của hình ảnh này.

Bằng cách phác họa loại đối tượng cụ thể mà người dùng muốn hiệu chỉnh GAN, khả năng tạo ra của khuôn khổ trở nên chuyên biệt cho lớp đó. Ví dụ, nếu người dùng muốn tạo ra một khuôn khổ tạo ra một loại mèo cụ thể (thay vì chỉ bất kỳ con mèo nào, như có thể được lấy từ Con Mèo Này Không Tồn Tại), các bản vẽ đầu vào của họ sẽ đóng vai trò như một bộ lọc để loại bỏ các lớp không liên quan.

Nguồn: https://peterwang512.github.io/GANSketching/

Nghiên cứu này được dẫn đầu bởi Sheng Yu-Wang của Đại học Carnegie Mellon, cùng với đồng nghiệp Jun-Yan Zhu, và David Bau của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT.

Phương pháp này được gọi là ‘phác họa GAN’, và sử dụng các bản vẽ đầu vào để thay đổi trực tiếp trọng số của mô hình GAN ‘mẫu’ để nhắm vào miền hoặc miền con cụ thể thông qua mất mát đối thủ xuyên miền.

Các phương pháp điều chỉnh khác nhau đã được khám phá để đảm bảo rằng đầu ra của mô hình là đa dạng, đồng thời duy trì chất lượng hình ảnh cao. Các nhà nghiên cứu đã tạo ra các ứng dụng mẫu có thể nội suy không gian潜 và thực hiện các thủ tục chỉnh sửa hình ảnh.

Này [$class] Không Tồn Tại

Các hệ thống tạo ảnh dựa trên GAN đã trở thành một hiện tượng, nếu không nói là một meme, trong những năm gần đây, với sự phổ biến của các dự án có khả năng tạo ra hình ảnh của những thứ không tồn tại, bao gồm cả người, căn hộ cho thuê, món ăn nhẹ, chân, ngựa, chính trị gia và côn trùng, trong số nhiều thứ khác.

Các hệ thống tổng hợp ảnh dựa trên GAN được tạo ra bằng cách biên dịch hoặc thu thập các tập dữ liệu rộng lớn chứa hình ảnh từ miền mục tiêu, chẳng hạn như khuôn mặt hoặc ngựa; đào tạo các mô hình tổng quát hóa một loạt các tính năng trên các hình ảnh trong cơ sở dữ liệu; và thực hiện các mô-đun tạo ra có thể tạo ra các ví dụ ngẫu nhiên dựa trên các tính năng đã học.

Đầu ra từ các bản vẽ trong DeepFacePencil, cho phép người dùng tạo ra khuôn mặt photorealistic từ các bản vẽ. Nhiều dự án tương tự từ bản vẽ sang hình ảnh tồn tại. Nguồn: https://arxiv.org/pdf/2008.13343.pdf

Các tính năng đa chiều là những tính năng đầu tiên được cụ thể hóa trong quá trình đào tạo, và tương đương với những nét vẽ đầu tiên rộng của một họa sĩ trên canvas. Những tính năng đa chiều này sẽ cuối cùng tương quan với các tính năng chi tiết hơn (ví dụ, ánh mắt và râu sắc của một con mèo, thay vì chỉ một khối màu be đại diện cho đầu).

Tôi Biết Bạn Nghĩa Là…

Bằng cách ánh xạ mối quan hệ giữa những hình dạng ban đầu này và các giải thích chi tiết được thu được nhiều sau đó trong quá trình đào tạo, có thể suy ra mối quan hệ giữa ‘mờ’ và ‘cụ thể’ hình ảnh, cho phép người dùng tạo ra hình ảnh phức tạp và photorealistic từ những nét vẽ thô.

Gần đây, NVIDIA đã phát hành một phiên bản máy tính để bàn của nghiên cứu GauGAN dài hạn về tạo ra cảnh quan dựa trên GAN, dễ dàng chứng minh nguyên tắc này:

Các nét vẽ thô được dịch thành hình ảnh phong cảnh phong phú thông qua GauGAN của NVIDIA, và bây giờ ứng dụng NVIDIA Canvas. Nguồn: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Tương tự, nhiều hệ thống như DeepFacePencil đã sử dụng cùng một nguyên tắc để tạo ra các bộ tạo ảnh photorealistic từ bản vẽ cho các miền khác nhau.

Cấu trúc của DeepFacePencil.

Giản Hóa Bản Vẽ-Sang-Hình Ảnh

Tiếp cận GAN Sketching mới này nhằm mục đích loại bỏ gánh nặng đáng kể về thu thập và chỉnh sửa dữ liệu thường liên quan đến việc phát triển các khuôn khổ tạo ảnh GAN, bằng cách sử dụng đầu vào của người dùng để xác định tập hợp con nào của hình ảnh nên cấu thành dữ liệu đào tạo.

Hệ thống này đã được thiết kế để yêu cầu chỉ một số bản vẽ đầu vào nhỏ để hiệu chỉnh khuôn khổ. Hệ thống này hiệu quả đảo ngược chức năng của PhotoSketch, một sáng kiến nghiên cứu chung từ năm 2019 bởi các nhà nghiên cứu từ Carnegie Mellon, Adobe, Uber ATG và Argo AI, được tích hợp vào công việc mới. PhotoSketch được thiết kế để tạo ra các bản vẽ nghệ thuật từ hình ảnh, và đã chứa ánh xạ hiệu quả của mối quan hệ tạo ra hình ảnh từ mờ đến cụ thể.

Đối với phần tạo ra của quá trình, phương pháp mới chỉ sửa đổi trọng số của StyleGAN2. Vì dữ liệu hình ảnh được sử dụng chỉ là một tập hợp con của dữ liệu có sẵn, việc chỉ sửa đổi mạng ánh xạ sẽ thu được kết quả mong muốn.

Phương pháp này đã được đánh giá trên một số miền con phổ biến, bao gồm ngựa, nhà thờ và mèo.

Tập dữ liệu LSUN của Đại học Princeton năm 2016 đã được sử dụng làm tài liệu cốt lõi để suy ra các miền con mục tiêu. Để thiết lập một hệ thống ánh xạ bản vẽ mạnh mẽ với các đặc điểm của đầu vào bản vẽ của người dùng trong thế giới thực, hệ thống được đào tạo trên hình ảnh từ tập dữ liệu QuickDraw được phát triển bởi Microsoft giữa năm 2021-2016.

Mặc dù ánh xạ bản vẽ giữa PhotoSketch và QuickDraw khá khác nhau, các nhà nghiên cứu đã tìm thấy rằng khuôn khổ của họ thành công tốt trong việc vượt qua chúng một cách dễ dàng trên các tư thế đơn giản, mặc dù các tư thế phức tạp hơn (chẳng hạn như mèo nằm xuống) chứng minh là một thách thức, trong khi đầu vào bản vẽ trừu tượng của người dùng (ví dụ, bản vẽ quá thô) cũng làm giảm chất lượng của kết quả.

Không Gian Ngầm và Chỉnh Sửa Hình Ảnh Tự Nhiên

Các nhà nghiên cứu đã phát triển hai ứng dụng dựa trên công việc cốt lõi: chỉnh sửa không gian ngầm và chỉnh sửa hình ảnh. Chỉnh sửa không gian ngầm cung cấp các điều khiển người dùng có thể giải thích được tại thời điểm đào tạo, và cho phép một phạm vi thay đổi rộng lớn trong khi vẫn trung thành với miền mục tiêu, và nhất quán hấp dẫn trên các biến thể.

Sự nội suy không gian ngầm mịn với các mô hình tùy chỉnh của GAN Sketching.

Thành phần chỉnh sửa không gian ngầm được cung cấp bởi dự án GANSpace năm 2020, một sáng kiến chung từ Đại học Aalto, Adobe và NVIDIA.

Một hình ảnh duy nhất cũng có thể được đưa vào mô hình tùy chỉnh, cho phép chỉnh sửa hình ảnh tự nhiên. Trong ứng dụng này, một hình ảnh duy nhất được đưa vào mô hình GAN tùy chỉnh, không chỉ cho phép chỉnh sửa trực tiếp, mà còn bảo tồn việc chỉnh sửa không gian ngầm ở mức cao hơn, nếu điều này cũng đã được sử dụng.

Ở đây, một hình ảnh thực đã được sử dụng làm đầu vào cho GAN (mô hình mèo), điều này chỉnh sửa đầu vào để phù hợp với các bản vẽ được gửi. Điều này cho phép chỉnh sửa hình ảnh thông qua bản vẽ.

Mặc dù có thể cấu hình, hệ thống này không được thiết kế để hoạt động trong thời gian thực, ít nhất là về đào tạo và hiệu chỉnh. Hiện tại, GAN Sketching yêu cầu 30.000 lần lặp đào tạo. Hệ thống cũng yêu cầu quyền truy cập vào dữ liệu đào tạo ban đầu cho mô hình ban đầu.

Trong các trường hợp mà tập dữ liệu là mã nguồn mở và có giấy phép cho phép sao chép cục bộ, điều này có thể được thực hiện bằng cách bao gồm dữ liệu nguồn trong một gói cục bộ được cài đặt, mặc dù điều này sẽ chiếm không gian đĩa đáng kể; hoặc bằng cách truy cập hoặc xử lý dữ liệu từ xa, thông qua cách tiếp cận dựa trên đám mây, điều này giới thiệu độ trễ mạng và (trong trường hợp xử lý thực sự xảy ra trên đám mây) có thể có chi phí tính toán.

Các biến đổi từ các mô hình FFHQ tùy chỉnh được đào tạo trên chỉ 4 bản vẽ được tạo bởi con người.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]