Trí tuệ nhân tạo

Tạo ‘Cơ thể tốt hơn’ với Trí tuệ nhân tạo

Published March 10, 2022

Updated April 28, 2026

Martin Anderson

Nghiên cứu mới từ học viện Alibaba DAMO cung cấp một quy trình công việc được thúc đẩy bởi trí tuệ nhân tạo để tự động hóa việc thay đổi hình ảnh của cơ thể – một nỗ lực hiếm hoi trong lĩnh vực thị giác máy tính hiện đang bị chiếm đóng bởi các thao túng dựa trên khuôn mặt như deepfakes và chỉnh sửa khuôn mặt dựa trên GAN.

Chèn trong cột ‘kết quả’, các bản đồ chú ý được tạo ra xác định các khu vực cần được sửa đổi. Nguồn: https://arxiv.org/pdf/2203.04670.pdf

Kiến trúc của các nhà nghiên cứu sử dụng ước tính tư thế xương để giải quyết sự phức tạp lớn hơn mà các hệ thống tổng hợp và chỉnh sửa hình ảnh phải đối mặt trong việc khái niệm hóa và tham số hóa các hình ảnh cơ thể hiện có, ít nhất là ở mức độ chi tiết thực sự cho phép chỉnh sửa có ý nghĩa và chọn lọc.

Bản đồ xương ước tính giúp phân biệt và tập trung chú ý vào các khu vực của cơ thể có khả năng được chỉnh sửa, chẳng hạn như khu vực cánh tay trên.

Hệ thống cuối cùng cho phép người dùng đặt các tham số có thể thay đổi hình dạng của trọng lượng, khối lượng cơ hoặc phân phối trọng lượng trong ảnh toàn thân hoặc ảnh nửa người, và có thể tạo ra các biến đổi tùy ý trên các phần cơ thể có quần áo hoặc không có quần áo.

Trái, hình ảnh đầu vào; giữa, bản đồ nhiệt của các khu vực chú ý được dẫn xuất; phải, hình ảnh đã biến đổi.

Động lực cho công việc này là sự phát triển của các quy trình công việc tự động có thể thay thế các thao túng kỹ thuật số khó khăn được thực hiện bởi các nhiếp ảnh gia và nghệ sĩ đồ họa sản xuất trong các nhánh truyền thông khác nhau, từ thời trang đến phong cách tạp chí và vật liệu quảng cáo.

Nói chung, các tác giả thừa nhận, những biến đổi này thường được áp dụng với các kỹ thuật ‘biến dạng’ trong Photoshop và các trình chỉnh sửa bitmap truyền thống khác, và gần như được sử dụng độc quyền trên hình ảnh của phụ nữ. Do đó, tập dữ liệu tùy chỉnh được phát triển để tạo điều kiện cho quá trình mới này chủ yếu bao gồm hình ảnh của các đối tượng nữ:

‘Vì việc chỉnh sửa cơ thể chủ yếu được mong muốn bởi phụ nữ, đa số bộ sưu tập của chúng tôi là ảnh của phụ nữ, xem xét sự đa dạng về tuổi tác, chủng tộc (Châu Phi: Châu Á: Châu Âu = 0,33: 0,35: 0,32), tư thế và trang phục.’

<bài báo có tiêu đề Structure-Aware Flow Generation for Human Body Reshaping, và đến từ năm tác giả liên kết với học viện DAMO toàn cầu của Alibaba.

Phát triển Tập dữ liệu

Như thường lệ với các hệ thống tổng hợp và chỉnh sửa hình ảnh, kiến trúc cho dự án này yêu cầu một tập dữ liệu đào tạo tùy chỉnh. Các tác giả đã ủy thác cho ba nhiếp ảnh gia để sản xuất các thao túng Photoshop tiêu chuẩn của các hình ảnh phù hợp từ trang web ảnh股票 Unsplash, dẫn đến một tập dữ liệu – có tiêu đề BR-5K* – của 5.000 hình ảnh chất lượng cao với độ phân giải 2K.

Các nhà nghiên cứu nhấn mạnh rằng mục tiêu của việc đào tạo trên tập dữ liệu này không phải là sản xuất các tính năng ‘lý tưởng hóa’ và tổng quát liên quan đến chỉ số hấp dẫn hoặc ngoại hình mong muốn, mà là để trích xuất các bản đồ tính năng trung tâm liên quan đến các thao túng chuyên nghiệp của hình ảnh cơ thể.

Tuy nhiên, họ thừa nhận rằng các thao túng cuối cùng phản ánh các quá trình biến đổi mà ánh xạ một tiến trình từ ‘thực’ đến một khái niệm ‘lý tưởng’ đã đặt trước:

‘Chúng tôi mời ba nghệ sĩ chuyên nghiệp để chỉnh sửa cơ thể bằng Photoshop độc lập, với mục tiêu đạt được hình dạng thon thả đáp ứng thẩm mỹ phổ biến, và chọn cái tốt nhất làm chân lý.’

Kể từ khi khuôn khổ không liên quan đến khuôn mặt, những khuôn mặt này đã bị làm mờ trước khi được bao gồm trong tập dữ liệu.

Kiến trúc và Các khái niệm cốt lõi

Quy trình công việc của hệ thống liên quan đến việc đưa vào một bức tranh chân dung độ phân giải cao, giảm mẫu xuống độ phân giải thấp hơn có thể phù hợp với tài nguyên tính toán có sẵn, và trích xuất một bản đồ tư thế xương ước tính (hình thứ hai từ trái trong hình dưới), cũng như Các trường liên kết phần (PAF), được đổi mới vào năm 2016 bởi Viện Robotics tại Đại học Carnegie Mellon (xem video nhúng trực tiếp dưới đây).

Các trường liên kết phần giúp xác định hướng của các chi và sự liên kết chung với khuôn khổ xương rộng lớn hơn, cung cấp cho dự án mới với một công cụ chú ý / định vị bổ sung.

Từ bài báo về Các trường liên kết phần, PAF dự đoán mã hóa hướng của chi như một phần của vector 2D cũng bao gồm vị trí chung của chi. Nguồn: https://arxiv.org/pdf/1611.08050.pdf

Mặc dù chúng dường như không liên quan đến ngoại hình của trọng lượng, các bản đồ xương vẫn hữu ích trong việc chỉ đạo các quá trình biến đổi cuối cùng đến các phần của cơ thể cần được sửa đổi, chẳng hạn như cánh tay trên, mông và đùi.

Sau đó, kết quả được đưa đến một Structure Affinity Self-Attention (SASA) trong nút thắt trung tâm của quá trình (xem hình dưới).

SASA điều chỉnh sự nhất quán của bộ tạo dòng nhiên liệu cho quá trình, kết quả của đó sau đó được chuyển đến mô-đun biến dạng (thứ hai từ phải trong hình trên), áp dụng các biến đổi được học từ đào tạo trên các bản sửa đổi thủ công được bao gồm trong tập dữ liệu.

Mô-đun Structure Affinity Self-Attention (SASA) phân bổ chú ý đến các bộ phận cơ thể phù hợp, giúp tránh các biến đổi không cần thiết hoặc không liên quan.

Hình ảnh đầu ra sau đó được lấy mẫu lên lại đến độ phân giải 2K ban đầu, sử dụng các quá trình không khác biệt so với kiến trúc deepfake tiêu chuẩn năm 2017 từ đó các gói phổ biến như DeepFaceLab đã được衍生; quá trình lấy mẫu lên cũng phổ biến trong các khuôn khổ chỉnh sửa GAN.

Mạng lưới chú ý cho sơ đồ được mô hình hóa theo Mạng lưới De-Attention thành phần (CODA), một sự hợp tác học thuật năm 2019 giữa Mỹ / Singapore với Amazon AI và Microsoft.

Thử nghiệm

Khung công việc dựa trên dòng được thử nghiệm chống lại các phương pháp dựa trên dòng trước đó FAL và Hoạt hình thông qua Biến dạng (ATW), cũng như các kiến trúc dịch hình ảnh Pix2PixHD và GFLA, với SSIM, PSNR và LPIPS làm các chỉ số đánh giá.

Kết quả của các thử nghiệm ban đầu (hướng mũi tên trong tiêu đề chỉ ra liệu các con số thấp hơn hay cao hơn là tốt nhất).

Dựa trên các chỉ số được áp dụng này, hệ thống của các tác giả vượt trội so với các kiến trúc trước đó.

Kết quả được chọn. Vui lòng tham khảo PDF gốc được liên kết trong bài viết này để so sánh độ phân giải cao hơn.

Ngoài các chỉ số tự động, các nhà nghiên cứu đã tiến hành một nghiên cứu người dùng (cột cuối cùng của bảng kết quả được hiển thị trước), trong đó 40 người tham gia mỗi người được hiển thị 30 câu hỏi được chọn ngẫu nhiên từ một nhóm 100 câu hỏi liên quan đến các hình ảnh được tạo ra thông qua các phương pháp khác nhau. 70% người trả lời ủng hộ kỹ thuật mới là ‘thị giác hấp dẫn’ hơn.

Thử thách

Bài báo mới này đại diện cho một cuộc thám hiểm hiếm hoi vào thao túng cơ thể dựa trên Trí tuệ nhân tạo. Lĩnh vực tổng hợp hình ảnh hiện đang quan tâm hơn đến việc tạo ra các cơ thể có thể chỉnh sửa thông qua các phương pháp như Trường bức xạ thần kinh (NeRF), hoặc tập trung vào việc khám phá không gian tiềm ẩn của GAN và tiềm năng của các bộ tự động mã hóa cho thao túng khuôn mặt.

Sáng kiến của các tác giả hiện đang bị giới hạn ở việc tạo ra các thay đổi trong trọng lượng được nhận thức, và họ chưa triển khai bất kỳ kỹ thuật nào để phục hồi nền tảng mà cuối cùng sẽ được tiết lộ khi bạn làm mỏng một bức tranh của ai đó.

Tuy nhiên, họ đề xuất rằng việc tạo khuôn mặt và trộn nền thông qua suy luận văn bản có thể giải quyết một cách đơn giản vấn đề phục hồi các phần của thế giới mà trước đây được che giấu trong hình ảnh bởi ‘khuyết điểm’ của con người.

Một giải pháp đề xuất để phục hồi nền tảng được tiết lộ bởi giảm mỡ Trí tuệ nhân tạo.

* Mặc dù bản thảo đề cập đến tài liệu bổ sung cung cấp thêm chi tiết về tập dữ liệu, cũng như các ví dụ khác từ dự án, vị trí của tài liệu này không được cung cấp trong bài báo, và tác giả tương ứng chưa phản hồi yêu cầu của chúng tôi để truy cập.

Được xuất bản lần đầu tiên vào ngày 10 tháng 3 năm 2022.

Related Topics:deepfake DeepFakes image synthesis research

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Tạo ‘Cơ thể tốt hơn’ với Trí tuệ nhân tạo

Phát triển Tập dữ liệu

Kiến trúc và Các khái niệm cốt lõi

Thử nghiệm

Thử thách

You may like