Trí tuệ nhân tạo
Tạo ‘Cơ thể tốt hơn’ với Trí tuệ nhân tạo

Nghiên cứu mới từ học viện Alibaba DAMO cung cấp một quy trình công việc được thúc đẩy bởi Trí tuệ nhân tạo để tự động hóa việc làm lại hình ảnh của cơ thể – một nỗ lực hiếm hoi trong lĩnh vực tầm nhìn máy tính hiện đang bị chiếm đóng bởi các thao túng dựa trên khuôn mặt như deepfakes và chỉnh sửa khuôn mặt dựa trên GAN chỉnh sửa khuôn mặt.

Chèn trong cột ‘kết quả’, các bản đồ chú ý được tạo ra xác định các khu vực cần được sửa đổi. Nguồn: https://arxiv.org/pdf/2203.04670.pdf
Kiến trúc của các nhà nghiên cứu sử dụng ước tính tư thế bộ xương để giải quyết sự phức tạp lớn hơn mà các hệ thống tổng hợp và chỉnh sửa hình ảnh phải đối mặt trong việc khái niệm hóa và tham số hóa các hình ảnh cơ thể hiện có, ít nhất là ở mức độ chi tiết thực sự cho phép chỉnh sửa có ý nghĩa và chọn lọc.

Bản đồ tư thế bộ xương ước tính giúp phân biệt và tập trung chú ý vào các khu vực của cơ thể có khả năng được chỉnh sửa, chẳng hạn như khu vực cánh tay trên.
Hệ thống cuối cùng cho phép người dùng đặt các tham số có thể thay đổi ngoại hình của trọng lượng, khối lượng cơ hoặc phân phối trọng lượng trong các bức ảnh toàn thân hoặc nửa thân của người, và có thể tạo ra các biến đổi tùy ý trên các phần cơ thể có quần áo hoặc không có quần áo.

Trái, hình ảnh đầu vào; giữa, bản đồ nhiệt của các khu vực chú ý được suy dẫn; phải, hình ảnh được biến đổi.
Động lực cho công việc này là sự phát triển của các quy trình công việc tự động có thể thay thế các thao túng kỹ thuật số khó khăn được thực hiện bởi các nhiếp ảnh gia và nghệ sĩ đồ họa sản xuất trong các nhánh truyền thông khác nhau, từ thời trang đến phong cách tạp chí và vật liệu quảng cáo.
Nói chung, các tác giả thừa nhận, những biến đổi này thường được áp dụng với các kỹ thuật ‘biến dạng’ trong Photoshop và các trình chỉnh sửa bitmap truyền thống khác, và gần như được sử dụng độc quyền trên hình ảnh của phụ nữ. Do đó, tập dữ liệu tùy chỉnh được phát triển để tạo điều kiện cho quá trình mới này chủ yếu bao gồm hình ảnh của các đối tượng nữ:
‘Vì việc chỉnh sửa cơ thể chủ yếu được mong muốn bởi phụ nữ, đa số bộ sưu tập của chúng tôi là ảnh nữ, xem xét sự đa dạng về tuổi tác, chủng tộc (Châu Phi: Châu Á: Châu Âu = 0,33: 0,35: 0,32), tư thế và trang phục.’
<bài báo có tiêu đề Structure-Aware Flow Generation for Human Body Reshaping, và đến từ năm tác giả liên kết với học viện DAMO toàn cầu của Alibaba.
Phát triển Tập dữ liệu
Như thường lệ với các hệ thống tổng hợp và chỉnh sửa hình ảnh, kiến trúc cho dự án này yêu cầu một tập dữ liệu đào tạo tùy chỉnh. Các tác giả đã ủy thác cho ba nhiếp ảnh gia để sản xuất các thao túng Photoshop tiêu chuẩn của các hình ảnh phù hợp từ trang web ảnh stock Unsplash, kết quả là một tập dữ liệu – có tên BR-5K* – của 5.000 hình ảnh chất lượng cao với độ phân giải 2K.
Các nhà nghiên cứu nhấn mạnh rằng mục tiêu của việc đào tạo trên tập dữ liệu này không phải là sản xuất các tính năng ‘lý tưởng hóa’ và tổng quát hóa liên quan đến chỉ số hấp dẫn hoặc ngoại hình mong muốn, mà là để trích xuất các bản đồ tính năng trung tâm liên kết với các thao túng chuyên nghiệp của hình ảnh cơ thể.
Tuy nhiên, họ thừa nhận rằng các thao túng cuối cùng phản ánh các quá trình biến đổi phản ánh sự tiến hóa từ ‘thực’ đến một khái niệm ‘lý tưởng’ đã đặt trước:
‘Chúng tôi mời ba nghệ sĩ chuyên nghiệp chỉnh sửa cơ thể bằng Photoshop độc lập, với mục tiêu đạt được hình thể mảnh mai đáp ứng thẩm mỹ phổ biến, và chọn cái tốt nhất làm chân lý.’
Vì khuôn mặt không được xử lý tại tất cả, chúng đã bị làm mờ trước khi được đưa vào tập dữ liệu.
Kiến trúc và Khái niệm cốt lõi
Quy trình công việc của hệ thống liên quan đến việc đưa vào một bức ảnh chân dung độ phân giải cao, giảm mẫu xuống độ phân giải thấp hơn có thể phù hợp với tài nguyên tính toán có sẵn, và trích xuất một bản đồ tư thế bộ xương ước tính (hình thứ hai từ trái trong hình dưới), cũng như các Trường Affinity Parts (PAFs), được đổi mới vào năm 2016 bởi Viện Robot tại Đại học Carnegie Mellon (xem video nhúng trực tiếp dưới đây).
https://www.youtube.com/watch?v=pW6nZXeWlGM
Trường Affinity Parts giúp xác định hướng của các chi và liên kết chung với khung xương rộng lớn hơn, cung cấp cho dự án mới với một công cụ chú ý / định vị bổ sung.

Từ bài báo Trường Affinity Fields năm 2016, PAF dự đoán mã hóa định hướng chi như một phần của vectơ 2D cũng bao gồm vị trí chung của chi. Nguồn: https://arxiv.org/pdf/1611.08050.pdf
Mặc dù chúng dường như không liên quan đến ngoại hình của trọng lượng, các bản đồ bộ xương hữu ích trong việc chỉ đạo các quá trình biến đổi cuối cùng đến các phần của cơ thể cần được sửa đổi, chẳng hạn như cánh tay trên, mông và đùi.
Sau đó, kết quả được đưa đến một Structure Affinity Self-Attention (SASA) trong nút thắt trung tâm của quy trình (xem hình dưới).

SASA điều chỉnh sự nhất quán của bộ tạo dòng nhiên liệu cho quy trình, kết quả của đó được chuyển đến mô-đun biến dạng (thứ hai từ phải trong hình trên), áp dụng các biến đổi được học từ đào tạo trên các sửa đổi thủ công trong tập dữ liệu.

Mô-đun Structure Affinity Self-Attention (SASA) phân bổ chú ý đến các bộ phận cơ thể phù hợp, giúp tránh các biến đổi không cần thiết hoặc không liên quan.
Hình ảnh đầu ra sau đó được lấy mẫu lên lại đến độ phân giải 2K ban đầu, sử dụng các quy trình không khác biệt so với kiến trúc deepfake tiêu chuẩn năm 2017 từ đó các gói phổ biến như DeepFaceLab đã được衍生; quá trình lấy mẫu lên cũng phổ biến trong các khung chỉnh sửa GAN.
Mạng lưới chú ý cho sơ đồ được mô hình hóa theo Mạng lưới De-Attention Compositional (CODA), một sự hợp tác học thuật năm 2019 của Mỹ / Singapore với Amazon AI và Microsoft.
Thử nghiệm
Khung công việc dựa trên dòng được thử nghiệm chống lại các phương pháp dựa trên dòng trước đó FAL và Hoạt hình thông qua Biến dạng (ATW), cũng như các kiến trúc dịch hình ảnh Pix2PixHD và GFLA, với SSIM, PSNR và LPIPS làm các chỉ số đánh giá.

Kết quả của các thử nghiệm ban đầu (hướng mũi tên trong tiêu đề chỉ ra liệu các con số thấp hơn hay cao hơn là tốt nhất).
Dựa trên các chỉ số được áp dụng này, hệ thống của các tác giả vượt trội so với các kiến trúc trước đó.

Kết quả được chọn. Vui lòng tham khảo PDF gốc được liên kết trong bài viết này để so sánh độ phân giải cao hơn.
Ngoài các chỉ số tự động, các nhà nghiên cứu đã tiến hành một nghiên cứu người dùng (cột cuối cùng của bảng kết quả được hiển thị trước đó), trong đó 40 người tham gia được hiển thị 30 câu hỏi được chọn ngẫu nhiên từ một nhóm 100 câu hỏi liên quan đến các hình ảnh được tạo ra thông qua các phương pháp khác nhau. 70% người trả lời ưa thích kỹ thuật mới hơn như ‘thu hút về mặt trực quan’ hơn.
Thử thách
Bài báo mới này đại diện cho một cuộc thám hiểm hiếm hoi vào thao túng cơ thể dựa trên Trí tuệ nhân tạo. Lĩnh vực tổng hợp hình ảnh hiện đang quan tâm hơn đến việc tạo ra các cơ thể có thể chỉnh sửa thông qua các phương pháp như Trường bức xạ Neural (NeRF), hoặc tập trung vào việc khám phá không gian tiềm ẩn của GAN và tiềm năng của các bộ tự mã hóa cho thao túng khuôn mặt.
Sáng kiến của các tác giả hiện đang bị giới hạn ở việc tạo ra các thay đổi về trọng lượng nhận thức, và họ đã không thực hiện bất kỳ kỹ thuật nào để phục hồi nền tảng mà cuối cùng sẽ được tiết lộ khi bạn làm mỏng một bức ảnh của ai đó.
Tuy nhiên, họ đề xuất rằng việc tạo khuôn mặt và trộn nền thông qua suy luận văn bản có thể giải quyết một cách đơn giản vấn đề phục hồi các phần của thế giới mà trước đây được che giấu trong hình ảnh bởi ‘khuyết tật’ của con người.

Một giải pháp đề xuất để phục hồi nền tảng được tiết lộ bởi giảm mỡ Trí tuệ nhân tạo.
* Mặc dù bản thảo đề cập đến tài liệu bổ sung cung cấp thêm chi tiết về tập dữ liệu, cũng như các ví dụ khác từ dự án, vị trí của tài liệu này không được cung cấp trong bài báo, và tác giả tương ứng chưa phản hồi yêu cầu của chúng tôi để truy cập.
Được xuất bản lần đầu tiên vào ngày 10 tháng 3 năm 2022.










