Góc nhìn Anderson
Ưu Điểm Của Việc Tăng Cân Bằng Trợ Lý Ảo

Hệ thống trợ lý ảo mới có thể biến đổi hình dạng cơ thể trong ảnh một cách thực tế, làm cho chúng trở nên béo hơn, gầy hơn hoặc cơ bắp hơn, mà không thay đổi khuôn mặt, quần áo hoặc nền.
Bên cạnh việc sử dụng trợ lý ảo như một phương pháp làm sắc nét hình dạng cơ thể trên mạng xã hội, hoặc (có thể) để thay đổi loại cơ thể cho mục đích hiệu ứng hình ảnh, việc sử dụng học máy để thay đổi hình dạng của cá nhân có thể phục vụ một chức năng quan trọng hơn: giúp những người bị rối loạn ăn uống hiểu cách họ nhìn nhận về bản thân, cũng như cung cấp một công cụ động viên cho mục đích thể thao và fitness chung:

Từ bài báo ‘Ước tính kích thước cơ thể ở phụ nữ bị loạn thần ăn uống và người khỏe mạnh sử dụng hình đại diện 3D’, giao diện người dùng để hình dung sự thay đổi hình dạng cơ thể. Những người bị rối loạn hình dạng cơ thể có thể khó liên kết hình dạng cơ thể thực tế của họ với hình ảnh tương tự, do đó cung cấp cho các nhà lâm sàng một số liệu để đánh giá phản ứng rối loạn. Nguồn: https://www.nature.com/articles/s41598-017-15339-z.pdf
Bên cạnh đó, lĩnh vực nghiên cứu thử nghiệm thời trang cũng quan tâm đến việc cung cấp hình ảnh chính xác trên nhiều hình dạng cơ thể. Trong khi đó, các khuôn khổ như DiffBody năm 2024 của Đại học Tsukuba ở Nhật Bản đã tạo ra một số chức năng thú vị trong lĩnh vực này:

Một số biến đổi có thể thực hiện được bằng kỹ thuật DiffBody trước đó. Nguồn: https://arxiv.org/pdf/2401.02804
Vì các mô hình nền tảng trợ lý ảo được tối ưu hóa cho các hình dạng cơ thể thông thường hoặc hấp dẫn, các kích cỡ không phổ biến như ‘béo’ thường không có sẵn trong các mô hình tiêu chuẩn, hoặc chúng đi kèm với những thành kiến nặng nề.
Các Yếu Tố Cần Thiết
Một trong những thách thức lớn nhất trong việc tạo ra các hệ thống trợ lý ảo có thể thêm hoặc bớt mỡ và cơ vào hình ảnh của con người một cách thực tế – mà không thay đổi khuôn mặt, môi trường hoặc quần áo của họ – là việc này liên quan đến huấn luyện ghép nối, nơi hệ thống trợ lý ảo hiệu quả học hỏi ‘trước’ và ‘sau’ hình ảnh định nghĩa sự biến đổi mà mô hình được thiết kế để thực hiện.
Loại huấn luyện này đã trở lại được chú ý trong suốt mùa hè do thành công của loạt mô hình chỉnh sửa hình ảnh Kontext của Black Forest Labs, nơi loại dữ liệu ghép nối này được sử dụng để dạy các biến đổi khác nhau cho mô hình:

Từ trang web Flux Kontext, một ví dụ về biến đổi phản ánh loại dữ liệu nguồn cần thiết để huấn luyện mô hình có khả năng giữ nguyên tính toàn vẹn của hình ảnh khi áp dụng các thay đổi lớn. Nguồn: https://bfl.ai/models/flux-kontext
Đương nhiên, trong trường hợp phát triển một mô hình có thể thay đổi đáng kể hình dạng của một người (mà không tưởng tượng lại toàn bộ hình ảnh), bạn cần có điều gì đó hoàn toàn không thể trong thế giới thực: hình ảnh ‘trước’ và ‘sau’ cực đoan được chụp chỉ vài giây cách nhau.
Giải pháp duy nhất là dữ liệu tổng hợp. Một số dự án thuộc loại này đã sử dụng cặp tương phản riêng lẻ được tạo thủ công trong Photoshop; tuy nhiên, điều này không thực tế khi mở rộng quy mô, và một quá trình tự động hoặc bán tự động, được thúc đẩy bởi trợ lý ảo, hiện được coi là phương pháp ưu tiên.
Vấn đề với các phương pháp dựa trên GAN và hầu hết các phương pháp dựa trên SMPL/X (trong đó một hình đại diện ảo CGI được sử dụng như một loại cơ chế trao đổi giữa hình ảnh thực và biến đổi mong muốn), và với các phương pháp sử dụng biến dạng hình ảnh, là nền và bản sắc có xu hướng bị ảnh hưởng trong quá trình.

Mô hình CGI dựa trên tham số như SMPL và SMPL-X (trong số những mô hình khác), cung cấp tọa độ 3D vật lý thông thường được định nghĩa, có thể được giải thích và tích hợp vào các khuôn khổ tầm nhìn máy tính. Nguồn: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Vì nó rất quan trọng để hệ thống trợ lý ảo học cách thay đổi chỉ những khía cạnh mong muốn, thay vì học cách biến dạng nền và tái tạo các lỗi không mong muốn, không có hệ thống thay đổi hình dạng cơ thể nào đạt được giải pháp hoàn hảo.
Một bài báo gần đây từ Ấn Độ tuy nhiên đề xuất một bước tiến đáng chú ý trong lĩnh vực này thông qua việc sử dụng khuôn khổ mô hình Flux cũ hơn, được tăng cường bởi một số phương pháp thứ cấp cho phép tạo ra một tập dữ liệu ghép nối ưu越 và nhất quán hơn:

Ví dụ về tập dữ liệu từ dự án mới. Nguồn: https://arxiv.org/pdf/2508.13065
Dự án này bao gồm một tập dữ liệu ghép nối mới và rộng lớn; Odo, một mô hình khuếch tán sinh được huấn luyện trên dữ liệu này; và một khuôn khổ chuẩn mực tùy chỉnh được thiết kế để đánh giá định lượng hiệu suất chỉnh sửa hình dạng cơ thể của con người:
Dự án mới này có tiêu đề Odo: Khuếch tán có hướng dẫn độ sâu cho việc thay đổi hình dạng cơ thể bảo toàn bản sắc, và đến từ ba nhà nghiên cứu tại Fast Code AI Pvt. Ltd ở Bangalore.
Dữ Liệu và Phương Pháp
Tập dữ liệu được tạo bởi các nhà nghiên cứu này bao gồm 7.615 hình ảnh độ phân giải cao (960x1280px) cho mỗi loại cơ thể mục tiêu (béo, gầy, và cơ bắp).
Ban đầu 1.523 khuôn mặt người được tạo ra thông qua mô hình khuếch tán FLUX.1-dev 12 tỷ tham số, mặc dù sử dụng một số lượng không xác định khuôn mặt tham chiếu miễn phí bản quyền từ Pexels và Unsplash để tăng sự đa dạng.
Để tạo ra hình ảnh toàn thân bao gồm những khuôn mặt này, các nhà nghiên cứu đã sử dụng PuLID của ByteDance, một điểm kiểm tra được tinh chỉnh trên cơ sở Flux, và tính năng mất mát tương phản được thiết kế để giúp bảo tồn bản sắc khuôn mặt trong quá trình biến đổi:

Ví dụ từ dự án PuLID. Nguồn: https://arxiv.org/pdf/2404.16022
Mô hình này nhận một hình ảnh khuôn mặt và một lời nhắc tiêu chuẩn hóa yêu cầu giới tính, quần áo, tư thế, cảnh, cũng như loại cơ thể gầy, béo, hoặc cơ bắp.
Các hình ảnh cơ thể ba loại cho mỗi bản sắc đôi khi thể hiện những thay đổi nhỏ về căn chỉnh nền và kích thước chủ thể được nhận thức, phát sinh từ hành vi ngẫu nhiên của các mô hình khuếch tán, nơi mỗi lần tạo bắt đầu từ một hạt giống nhiễu mới.
Để sửa lỗi cho sự thay đổi này, một đường ống hậu xử lý tự động bốn giai đoạn đã được áp dụng, với hình ảnh gầy trong mỗi bộ ba được chọn làm hình ảnh tham chiếu, vì hình dạng mỏng manh của nó暴露 nhiều nền hơn.
Phát hiện người được thực hiện bằng RT-DETRv2, tiếp theo là phân đoạn bằng SAM 2.1 để trích xuất mặt nạ đối tượng cho tất cả ba loại cơ thể.
Hình ảnh tham chiếu gầy sau đó được chuyển đến FLUX.1 Kontext Pro (hệ thống chỉnh sửa hình ảnh mới) để làm mịn nền, tạo ra một phiên bản sạch của cảnh với chủ thể bị xóa.
Các hình ảnh béo và cơ bắp được thay đổi kích thước bằng cách缩放 đồng đều để phù hợp với chiều cao của mặt nạ tham chiếu mỏng, và được tổng hợp vào nền sạch tại cùng một căn chỉnh đáy, đảm bảo khung hình nhất quán trên tất cả hình ảnh.
Các tác giả tuyên bố:
‘Các bộ ba biến đổi kết quả (gầy, béo và cơ bắp) có cùng nền và tỷ lệ chủ thể đồng nhất. Điều này loại bỏ các biến thể không liên quan có thể ảnh hưởng tiêu cực đến huấn luyện hoặc đánh giá sau này.’
Mỗi bộ ba hình ảnh gầy, béo và cơ bắp cho phép sáu cặp biến đổi có thể có, dẫn đến 45.690 cặp kết hợp lý thuyết trên 7.615 bản sắc.
Sau khi lọc bỏ các ví dụ có quần áo không khớp, tư thế không tự nhiên, chi bị biến dạng, trôi dạt bản sắc hoặc thay đổi hình dạng tối thiểu, 18.573 cặp chất lượng cao đã được giữ lại. Mặc dù một số sự khác biệt về tư thế nhỏ vẫn còn, mô hình đã chứng minh được khả năng chịu đựng những biến thể này.
Huấn Luyện và Kiểm Tra
Những hình ảnh này đã được sử dụng để huấn luyện mô hình Odo – một phương pháp dựa trên khuếch tán để biến đổi hình dạng cơ thể của con người, với việc sử dụng các bản đồ SMPL (tức là mô hình CGI trung gian).
Được thông báo bởi các phương pháp của Neural Localizer năm 2024, dữ liệu đã được định hình cho mô hình SMPL trên cơ sở mỗi cá nhân, với các tham số tối ưu hóa có thể tạo ra bản đồ độ sâu từ đó hình ảnh biến đổi sẽ được tạo ra:

Sơ đồ cho đường ống huấn luyện. Bên trái cho thấy thiết lập huấn luyện, nơi bản đồ độ sâu SMPL từ hình ảnh mục tiêu hướng dẫn ReshapeNet thông qua ControlNet để thực hiện biến đổi cơ thể. Các tính năng từ hình ảnh nguồn được trích xuất bởi ReferenceNet và hợp nhất vào ReshapeNet bằng sự chú ý không gian. Bên phải cho thấy suy luận, nơi các tham số SMPL được ước tính từ hình ảnh đầu vào, được sửa đổi bởi các thuộc tính ngữ nghĩa và được kết xuất thành bản đồ độ sâu mục tiêu điều kiện ReshapeNet trong quá trình làm mịn, để tạo ra hình ảnh biến đổi cuối cùng.
Mô hình (xem sơ đồ trên) bao gồm mô块 ReshapeNet; được hỗ trợ bởi ba mô块 phụ trợ: ReferenceNet; một mô块 IP-Adapter; và một mô块 ControlNet dựa trên độ sâu.
ReferenceNet trích xuất các tính năng chi tiết như nền, quần áo và bản sắc từ hình ảnh đầu vào, và truyền chúng đến ReshapeNet. IP-Adapter đóng góp hướng dẫn tính năng cấp cao, trong khi ControlNet dựa trên độ sâu áp dụng điều kiện SMPL để hướng dẫn biến đổi cơ thể. Theo các công việc trước, một SDXL dựa trên frozen UNet đã được sử dụng để trích xuất các tính năng trung gian.
Về mô块 IP-Adapter, nó mã hóa hình ảnh đầu vào thông qua CLIP, với các nhúng kết quả được tích hợp lại vào ReshapeNet thông qua chú ý chéo.
Về mô块 ControlNet dựa trên độ sâu, nó hướng dẫn các lớp giữa và giải mã của ReshapeNet bằng kết nối dư. Sau đó, nó lấy một bản đồ độ sâu được kết xuất từ các tham số SMPL mục tiêu, và căn chỉnh nó với hình ảnh mục tiêu.
ReshapeNet, dựa trên UNet SDXL, là mạng lõi của Odo. Trong quá trình huấn luyện, hình ảnh mục tiêu được mã hóa vào không gian 潛 bằng một tự mã hóa biến đổi, bị nhiễu theo thời gian, và sau đó được làm mịn bởi ReshapeNet bằng cách sử dụng các tính năng từ ControlNet và ReferenceNet.
Các lời nhắc văn bản cụ thể như ‘Làm cho người béo hơn,’ ‘Làm cho người gầy hơn,’ hoặc ‘Làm cho người cơ bắp hơn’ đã được thêm vào, để hướng dẫn các biến đổi. Trong khi các bản đồ độ sâu nắm bắt các hình dạng cơ thể thô, các lời nhắc cung cấp chi tiết ngữ nghĩa cần thiết cho các thay đổi như định nghĩa cơ, cho phép mô hình tạo ra các sửa đổi chính xác và thực tế hơn.
Triển Khai Huấn Luyện
Odo được huấn luyện trên tập dữ liệu tổng hợp của dự án, kết hợp với một tập con của tập dữ liệu DeepFashion-MultiModal, tạo ra tổng cộng 20.000 cặp hình ảnh.
Dữ liệu DeepFashion-MultiModal cung cấp sự đa dạng về trang phục và tính năng khuôn mặt, với hình ảnh được ghép cặp với chính chúng trong quá trình huấn luyện. Với tất cả các bản đồ độ sâu SMPL được tính toán trước cho hiệu quả, huấn luyện diễn ra trong 60 epoch trên một GPU NVIDIA A100 duy nhất với 80GB VRAM.
Với hình ảnh đầu vào được thay đổi kích thước xuống 768×1024, tối ưu hóa Adam đã được sử dụng, với tốc độ học 1×10⁻⁵. ReshapeNet được khởi tạo với trọng số UNet SDXL và được tinh chỉnh chung với IP-Adapter từ điểm kiểm tra của nó.
ReferenceNet được khởi tạo với trọng số SDXL và được giữ cố định, trong khi ControlNet dựa trên độ sâu sử dụng trọng số được đào tạo trước và cũng vẫn cố định.
Mô hình cuối cùng yêu cầu khoảng 23GB bộ nhớ GPU, cần 18 giây để suy luận hình ảnh đơn.
Độ Đo Lường Mới
Sự thiếu hụt các tập dữ liệu cần thiết cho loại dự án này có nghĩa là không có số liệu hiện có nào thực sự giải quyết thách thức. Do đó, các tác giả đã tạo ra một số liệu chuẩn mực mới, bao gồm 3.600 cặp hình ảnh, có hình ảnh khuôn mặt thực và mô tả nền, cùng với các biến thể hình dạng cơ thể đa dạng.
Các số liệu khác được sử dụng bao gồm Chỉ số Tương đồng Cấu trúc (SSIM); Tỷ lệ Tín hiệu trên Nhiễu Đỉnh (PSNR); Tương đồng Hình ảnh Patch Học được (LPIPS); và Lỗi Euclid theo Vertex đã Điều chỉnh Quy mô trong Tư thế Trung tính (PVE-T-SC).
Trước hết, các tác giả đã kiểm tra phương pháp của họ một cách định tính đối với hình ảnh trong thế giới thực (hình ảnh không được mô hình nhìn thấy trong quá trình huấn luyện):

Kiểm tra định tính. Các ví dụ cho thấy chuyển đổi từ hình ảnh ban đầu sang các loại cơ thể mỏng, béo và cơ bắp khác nhau trên các tư thế khác nhau, bao gồm cả ngồi và đứng. Vui lòng tham khảo bài báo nguồn để có định nghĩa và chi tiết tốt hơn.
Về những kết quả này, bài báo cho biết:
‘Phương pháp của chúng tôi xử lý hiệu quả các tư thế, nền và quần áo đa dạng trong khi bảo tồn bản sắc của người.
‘Ngoài các hình dạng mục tiêu SMPL, chúng tôi cung cấp lời nhắc văn bản – “Làm cho người béo hơn,” “Làm cho người gầy hơn,” hoặc “Làm cho người cơ bắp hơn” – để hướng dẫn rõ ràng các biến đổi mong muốn…
… ‘[Hình ảnh dưới đây] chứng minh thêm khả năng của mô hình chúng tôi trong việc thực hiện các biến đổi hình dạng đa dạng. Mô hình của chúng tôi chính xác theo dõi các bản đồ độ sâu SMPL để tạo ra nhiều biến thể mỏng và béo từ hình ảnh tham chiếu.’

Kiểm tra định tính bổ sung bao gồm các loại cơ thể mục tiêu. Vui lòng tham khảo bài báo nguồn để có định nghĩa và chi tiết tốt hơn.
Các tác giả nhận xét thêm:
‘Kết quả của chúng tôi chứng minh các biến đổi thực tế hơn theo trọng lượng mục tiêu, vì mô hình của chúng tôi đồng thời điều chỉnh hình dạng cơ thể tổng thể, tỷ lệ chi và quần áo, dẫn đến các sửa đổi nhất quán về mặt giải phẫu và thuyết phục về mặt trực quan.’
Đối với các kiểm tra định lượng, các tác giả đã so sánh hệ thống của họ với mô hình Flux Kontext [dev] mã nguồn mở, FLUX.1, và đề xuất năm 2022 Sự tạo ra dòng chảy nhận thức cấu trúc cho việc thay đổi hình dạng cơ thể của con người.
Đối với FLUX.1 Kontext [dev], các lời nhắc được thiết kế để hướng dẫn ‘Làm cho người béo hơn,’ ‘Làm cho người gầy hơn,’ hoặc ‘Làm cho người cơ bắp hơn’, với trọng lượng mục tiêu được chỉ định – mặc dù sự thiếu hụt các điều khiển tinh chỉnh đã hạn chế hiệu suất:
![So sánh Odo với Sự tạo ra dòng chảy nhận thức cấu trúc cho việc thay đổi hình dạng cơ thể của con người và FLUX.1 Kontext [dev] trên tập kiểm tra, cùng với kết quả ablation cho các mô hình được đào tạo mà không có điều kiện lời nhắc trong ReshapeNet, mà không có ReferenceNet (chỉ sử dụng IP-Adapter), và với huấn luyện bị giới hạn ở tập dữ liệu BR-5K. Bảng cũng bao gồm các tài liệu liên quan đến các nghiên cứu ablation (BR-5K), mà chúng tôi không đề cập ở đây.](https://www.unite.ai/wp-content/uploads/2025/08/table-2-1.jpg)
So sánh Odo với Sự tạo ra dòng chảy nhận thức cấu trúc cho việc thay đổi hình dạng cơ thể của con người và FLUX.1 Kontext [dev] trên tập kiểm tra, cùng với kết quả ablation (không được đề cập trong bài viết này) cho các mô hình được đào tạo mà không có điều kiện lời nhắc trong ReshapeNet, mà không có ReferenceNet (chỉ sử dụng IP-Adapter), và với huấn luyện bị giới hạn ở tập dữ liệu BR-5K.
Kết Luận
Sự ra đời của Flux Kontext trong năm nay, và gần đây hơn là việc phát hành trọng số không lượng tử cho Qwen Image Edit, đã đưa dữ liệu hình ảnh ghép nối trở lại vào tâm điểm của cộng đồng nghiệp dư và chuyên nghiệp. Trong bối cảnh ngày càng chỉ trích và thiếu kiên nhẫn đối với sự không chính xác của trợ lý ảo sinh, các mô hình như thế này được thiết kế cho độ trung thực cao hơn với hình ảnh nguồn đầu vào (mặc dù các mô hình quy mô nhỏ hơn đôi khi bị hạn chế bởi các mục tiêu đào tạo cụ thể).
Trong trường hợp này, sự hữu ích của một hệ thống thay đổi hình dạng cơ thể dường như nằm trong các lĩnh vực tâm lý, y tế và thời trang. Tuy nhiên, vẫn có khả năng các hệ thống như thế này sẽ đạt được mức độ nổi bật cao hơn, và có thể là một tập hợp sử dụng thông thường và thậm chí là đáng lo ngại hơn.
Được xuất bản lần đầu vào Thứ Hai, ngày 25 tháng 8 năm 2025












