มุมมองของ Anderson
ข้อดีของการเพิ่มน้ำหนักผ่าน AI

ระบบ AI ใหม่สามารถเปลี่ยนรูปร่างของร่างกายในภาพให้สมจริงได้ โดยการทำให้ผู้คนในภาพมีน้ำหนักมากขึ้น หรือกล้ามเนื้อมากขึ้น โดยไม่ต้องเปลี่ยนใบหน้า เสื้อผ้า หรือพื้นหลัง ระบบนี้ได้รับการฝึกฝนจากชุดข้อมูลสังเคราะห์ที่แสดงถึงอัตลักษณ์ของแต่ละคนในหลายรูปแบบของร่างกาย
นอกจากการใช้ AI ในการปรับเปลี่ยนรูปร่างบนเครือข่ายสังคมหรือสำหรับวัตถุประสงค์ VFX แล้ว การใช้การเรียนรู้ของเครื่องจักรเพื่อเปลี่ยนแปลงรูปร่างของบุคคลยังสามารถมีหน้าที่สำคัญในการช่วยให้บุคคลที่มีปัญหาการกินมองเห็นและเข้าใจร่างกายของตนเองได้ดีขึ้น รวมถึงการให้แรงบันดาลใจในการออกกำลังกายและกีฬา

จากงานวิจัย ‘การประมาณการขนาดร่างกายในผู้หญิงที่มีอาการกินไม่เหมาะสมและผู้ที่มีสุขภาพดีโดยใช้อวตาร 3 มิติ’ GUI สำหรับการแสดงการเปลี่ยนแปลงรูปร่างร่างกาย บุคคลที่มีปัญหาการกินอาจมีความยากในการเชื่อมโยงภาพลักษณ์ที่สมจริงของตนเองกับภาพที่คล้ายคลึงกัน ทำให้แพทย์มีมาตรการในการตอบสนองต่อการเปลี่ยนแปลงรูปร่าง Source: https://www.nature.com/articles/s41598-017-15339-z.pdf
นอกจากนี้ การวิจัยเกี่ยวกับการลองเสื้อผ้าเสมือนจริงในด้านการมองเห็นคอมพิวเตอร์ยังมีความสนใจในการให้ภาพลักษณ์ที่แม่นยำข้ามรูปร่างร่างกายที่หลากหลาย ในขณะที่เฟรมเวิร์กอย่าง DiffBody ในปี 2024 จากมหาวิทยาลัย Tsukuba ในญี่ปุ่นได้สร้างฟังก์ชันการทำงานที่น่าประทับใจในด้านนี้

การเปลี่ยนแปลงที่เป็นไปได้โดยใช้เทคนิค DiffBody ก่อนหน้า Source: https://arxiv.org/pdf/2401.02804
เนื่องจากโมเดล AI ที่ใช้ฐานข้อมูลทั่วไปมักจะถูกปรับให้เหมาะสมกับรูปร่างที่สวยงามหรือทั่วไป จึงทำให้รูปร่างที่ไม่ปกติ เช่น ‘อ้วน’ มักจะไม่มีอยู่ในโมเดลเหล่านี้หรือมีอคติที่รุนแรง
ความจำเป็นในการจับคู่
หนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดในการสร้างระบบ AI ที่สามารถเปลี่ยนแปลงรูปร่างร่างกายในภาพได้อย่างสมจริง โดยไม่ต้องเปลี่ยนใบหน้า สภาพแวดล้อม หรือเสื้อผ้า คือการฝึกอบรมแบบ ‘จับคู่’ ซึ่งระบบ AI จะเรียนรู้จากภาพ ‘ก่อน’ และ ‘หลัง’ ที่กำหนดการเปลี่ยนแปลงที่ต้องการ
การฝึกอบรมประเภทนี้ได้กลับมามีความสำคัญอีกครั้งในช่วงฤดูร้อนเนื่องจากความสำเร็จของโมเดล Flux Kontext ของ Black Forest Labs ซึ่งใช้ข้อมูลจับคู่เพื่อสอนการเปลี่ยนแปลงหลายอย่างให้กับโมเดล

ตัวอย่างการเปลี่ยนแปลงจากเว็บไซต์ Flux Kontext ซึ่งแสดงถึงข้อมูลที่จำเป็นในการฝึกอบรมโมเดลที่สามารถรักษาคุณภาพของภาพเมื่อมีการเปลี่ยนแปลงที่สำคัญ Source: https://bfl.ai/models/flux-kontext
อย่างไรก็ตาม ในการสร้างโมเดลที่สามารถเปลี่ยนแปลงรูปร่างร่างกายได้อย่างมีนัยสำคัญโดยไม่ต้องสร้างภาพใหม่ทั้งหมด เราต้องการสิ่งที่เป็นไปไม่ได้ในโลกแห่งความเป็นจริง: ภาพ ‘ก่อน’ และ ‘หลัง’ ที่ถ่ายในเวลาเดียวกัน
ทางออกเดียวคือการใช้ข้อมูลสังเคราะห์ โครงการบางอย่างได้ใช้ข้อมูลจับคู่ที่สร้างขึ้นโดยใช้ Photoshop อย่างไรก็ตาม วิธีนี้ไม่เหมาะสมสำหรับการใช้งานในระดับใหญ่ และกระบวนการที่ขับเคลื่อนด้วย AI ซึ่งเป็นแบบอัตโนมัติหรือแบบกึ่งอัตโนมัติ ถือเป็นวิธีที่ดีกว่า
ปัญหาในการใช้โมเดลที่ใช้ GAN หรือ SMPL/X คือ พื้นหลังและอัตลักษณ์ของบุคคลมักจะถูกเปลี่ยนแปลงไปในกระบวนการนี้

โมเดล CGI แบบพาราเมตริก เช่น SMPL และ SMPL-X ให้พิกัด 3 มิติที่กำหนดไว้ซึ่งสามารถถูกตีความและรวมเข้ากับเฟรมเวิร์กการมองเห็นคอมพิวเตอร์ Source: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
เนื่องจากเป็นสิ่งสำคัญที่ระบบ AI จะเรียนรู้เพื่อเปลี่ยนแปลงเฉพาะส่วนที่ต้องการเท่านั้น และไม่เปลี่ยนแปลงพื้นหลังหรือสิ่งอื่น ๆ ที่ไม่จำเป็น จึงไม่มีระบบใดที่สามารถบรรลุผลลัพธ์ที่สมบูรณ์แบบได้
อย่างไรก็ตาม โครงการวิจัยล่าสุดจากอินเดียได้เสนอแนวทางที่ดีกว่าโดยใช้เฟรมเวิร์ก Flux ที่เก่ากว่า โดยเพิ่มวิธีการอื่น ๆ เพื่อให้ได้ชุดข้อมูลจับคู่ที่ดีกว่า

ตัวอย่างจากชุดข้อมูลใหม่ Source: https://arxiv.org/pdf/2508.13065
โครงการนี้ประกอบด้วยชุดข้อมูลจับคู่ใหม่และกว้างขวาง; โมเดลการกระจาย Odo ที่ฝึกอบรมจากข้อมูลนี้; และมาตรฐานใหม่ที่ออกแบบมาเพื่อประเมินประสิทธิภาพการเปลี่ยนแปลงรูปร่างร่างกายของมนุษย์ ในการทดสอบ โครงการนี้อ้างว่าสามารถทำได้ดีกว่าโมเดลที่คล้ายกัน
งานวิจัยใหม่นี้มีชื่อว่า Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping และมาจากนักวิจัยสามคนจาก Fast Code AI Pvt. Ltd ใน Bangalore
ข้อมูลและวิธีการ
ชุดข้อมูลที่นักวิจัยสร้างขึ้นมี 7,615 ภาพที่มีความละเอียดสูง (960x1280px) สำหรับแต่ละรูปร่างร่างกาย (อ้วน, ผอม, และกล้ามเนื้อ)
ในตอนแรก 1,523 ใบหน้ามนุษย์ได้รับการสร้างขึ้นโดยใช้โมเดล FLUX.1-dev ที่มีพารามิเตอร์ 12 พันล้านตัว โดยใช้ใบหน้าจาก Pexels และ Unsplash เพื่อเพิ่มความหลากหลาย
เพื่อสร้างภาพร่างกายเต็มโดยใช้ใบหน้าเหล่านี้ นักวิจัยใช้ PuLID ของ ByteDance ในปี 2024 ซึ่งเป็นโมเดลที่ปรับให้เหมาะสมจาก Flux และมีการสูญเสียความแตกต่างที่ช่วยรักษาอัตลักษณ์ของใบหน้าระหว่างการเปลี่ยนแปลง

ตัวอย่างจากโครงการ PuLID Source: https://arxiv.org/pdf/2404.16022
โมเดลได้รับภาพใบหน้าและคำสั่งมาตรฐานที่ขอให้ระบุ ‘เพศ’, ‘เสื้อผ้า’, ‘ท่า’, ‘ฉาก’, และรูปร่างร่างกาย (‘ผอม’, ‘อ้วน’, หรือ ‘กล้ามเนื้อ’)
ภาพร่างกายสามภาพสำหรับอัตลักษณ์แต่ละภาพอาจมีการเปลี่ยนแปลงเล็กน้อยในพื้นหลังและการจัดขนาดของวัตถุ ซึ่งเกิดจากพฤติกรรมสุ่มของโมเดลการกระจาย โดยที่การสร้างภาพใหม่เริ่มต้นจาก ‘เสียง’ สุ่มใหม่ทุกครั้ง
เพื่อแก้ไขปัญหานี้ นักวิจัยใช้กระบวนการหลังการประมวลผลอัตโนมัติ 4 ขั้นตอน โดยเลือกภาพ ‘ผอม’ เป็นภาพอ้างอิง เนื่องจากมีส่วนเงาเล็กกว่าและแสดงพื้นหลังมากกว่า
การตรวจจับบุคคลถูกทำโดยใช้ RT-DETRv2 และการแบ่งส่วนโดยใช้ SAM 2.1 เพื่อแยกหน้ากากวัตถุสำหรับรูปร่างร่างกายทั้งสาม
ภาพอ้างอิง ‘ผอม’ ถูกส่งผ่าน FLUX.1 Kontext Pro สำหรับการทาสีพื้นหลังใหม่เพื่อให้ได้ภาพพื้นหลังที่สะอาด โดยไม่มีวัตถุ
รูป ‘อ้วน’ และ ‘กล้ามเนื้อ’ ถูกปรับขนาดโดยใช้การขยายขนาดแบบสม่ำเสมอเพื่อให้เข้ากับความสูงของหน้ากากอ้างอิง ‘ผอม’ และถูกวางบนพื้นหลังที่สะอาดโดยการวางตำแหน่งที่ด้านล่างให้เท่ากัน เพื่อให้ได้เฟรมที่สม่ำเสมอทั้งสามภาพ
นักวิจัยระบุว่า:
‘การเปลี่ยนแปลงสามแบบ (ผอม, อ้วน, และกล้ามเนื้อ) มีพื้นหลังและขนาดวัตถุที่เหมือนกัน ซึ่งจะลบการเปลี่ยนแปลงที่ไม่เกี่ยวข้องที่อาจส่งผลเสียต่อการฝึกอบรมหรือการประเมินในภายหลัง’
การเปลี่ยนแปลงสามแบบสำหรับอัตลักษณ์แต่ละแบบทำให้ได้คู่เปลี่ยนแปลงที่เป็นไปได้หกแบบ ซึ่งนำไปสู่การรวม 45,690 คู่ที่เป็นไปได้จากอัตลักษณ์ 7,615 แบบ
หลังจากกรองออกแล้ว นักวิจัยได้ 18,573 คู่ที่มีคุณภาพสูง
การฝึกอบรมและการทดสอบ
ภาพเหล่านี้ถูกใช้ในการฝึกอบรมโมเดล Odo ซึ่งเป็นแนวทางที่ใช้การกระจายเพื่อเปลี่ยนแปลงรูปร่างร่างกาย โดยใช้ SMPL (Skinned Multi-Person Linear) เป็นโมเดล CGI ระหว่างกลาง
โดยได้รับแรงบันดาลใจจากวิธีการของ Neural Localizer ในปี 2024 นักวิจัยได้ปรับข้อมูลให้เข้ากับโมเดล SMPL สำหรับแต่ละบุคคล โดยใช้พารามิเตอร์ที่ได้รับการปรับให้เหมาะสมเพื่อสร้างแผนที่ความลึก ซึ่งจะนำไปใช้ในการสร้างภาพที่เปลี่ยนแปลง

สเคมาสำหรับกระบวนการฝึกอบรม โมเดล Odo ประกอบด้วย ReshapeNet, ReferenceNet, IP-Adapter, และ Depth ControlNet
โมเดลประกอบด้วยโมดูล ReshapeNet ที่ได้รับการสนับสนุนจากสามโมดูลอื่น ๆ: ReferenceNet, IP-Adapter, และ Depth ControlNet
ReferenceNet จะดึงคุณลักษณะเชิงลึก เช่น พื้นหลัง เสื้อผ้า และอัตลักษณ์จากภาพเข้า และส่งไปยัง ReshapeNet
IP-Adapter ให้คำแนะนำคุณลักษณะระดับสูง ในขณะที่ Depth ControlNet ใช้การควบคุมตามความลึกจาก SMPL เพื่อชี้นำการเปลี่ยนแปลงรูปร่างร่างกาย
ReshapeNet เป็นโมเดลหลักของ Odo และใช้ UNet ที่มีการแช่แข็งและปรับให้เหมาะสมร่วมกับ IP-Adapter
การฝึกอบรมเกิดขึ้นบนชุดข้อมูลสังเคราะห์ที่สร้างขึ้นร่วมกับชุดข้อมูล DeepFashion-MultiModal โดยรวมเป็น 20,000 คู่ภาพ
การฝึกอบรมใช้เวลา 60 เอพพอกบน GPU NVIDIA A100 ที่มี VRAM 80GB โดยใช้อัลกอริทึม Adam และอัตราการเรียนรู้ 1×10⁻⁵
โมเดลสุดท้ายต้องการประมาณ 23GB ของหน่วยความจำ GPU และใช้เวลา 18 วินาทีในการประมวลผลภาพเดียว
การนำไปใช้ในการฝึกอบรม
โมเดล Odo ถูกฝึกอบรมบนชุดข้อมูลสังเคราะห์ที่สร้างขึ้น โดยใช้ SMPL เป็นโมเดล 3 มิติ ระหว่างกลาง
การฝึกอบรมเกิดขึ้นบนชุดข้อมูลที่รวม 20,000 คู่ภาพ โดยใช้ GPU NVIDIA A100 และอัลกอริทึม Adam
มาตรฐานใหม่
เนื่องจากไม่มีชุดข้อมูลที่เหมาะสมสำหรับโครงการนี้ นักวิจัยจึงสร้างมาตรฐานใหม่ที่ประกอบด้วย 3,600 คู่ภาพ โดยมีใบหน้าและพื้นหลังที่หลากหลาย และการเปลี่ยนแปลงรูปร่างร่างกาย
นอกเหนือจากมาตรฐานใหม่นี้แล้ว ยังมีการใช้มาตรฐานอื่น ๆ เช่น SSIM, PSNR, LPIPS, และ PVE-T-SC
นักวิจัยทดสอบวิธีการของตนในเชิงคุณภาพกับภาพที่ไม่ได้ใช้ในการฝึกอบรม

การทดสอบเชิงคุณภาพ ตัวอย่างการเปลี่ยนแปลงจากภาพเดิมเป็นรูปร่างที่ผอมกว่า อ้วนกว่า และกล้ามเนื้อมากกว่า ในท่าทางต่าง ๆ
ผลลัพธ์แสดงให้เห็นว่า:
‘วิธีการของเราสามารถจัดการกับท่าทาง พื้นหลัง และเสื้อผ้าได้อย่างมีประสิทธิภาพ ในขณะเดียวกันก็รักษาอัตลักษณ์ของบุคคลไว้’
‘นอกเหนือจาก SMPL แล้ว เรายังให้คำสั่งเชิงข้อความ เช่น ‘ทำให้ผอมกว่า’, ‘ทำให้อ้วนกว่า’, หรือ ‘ทำให้มีกล้ามเนื้อมากกว่า’ เพื่อชี้นำการเปลี่ยนแปลงที่ต้องการ…’
…'[ภาพด้านล่าง] แสดงให้เห็นถึงความสามารถของโมเดลในการทำการเปลี่ยนแปลงรูปร่างที่หลากหลาย’

การทดสอบเชิงคุณภาพเพิ่มเติมที่ครอบคลุมรูปร่างร่างกายที่แตกต่างกัน
นักวิจัยยังระบุว่า:
‘ผลลัพธ์ของเราแสดงให้เห็นการเปลี่ยนแปลงที่สมจริงยิ่งขึ้นตามน้ำหนักที่ต้องการ โดยที่โมเดลของเราจะปรับเปลี่ยนรูปร่างร่างกายทั้งหมด ขา และเสื้อผ้าเพื่อให้ได้การเปลี่ยนแปลงที่สอดคล้องกันและน่าเชื่อถือ’
ในการทดสอบเชิงปริมาณ นักวิจัยเปรียบเทียบวิธีการของตนกับโมเดล Flux Kontext [dev] และโมเดล Structure-Aware Flow Generation for Human Body Reshaping ในปี 2022

การเปรียบเทียบระหว่าง Odo และโมเดลอื่น ๆ
สรุป
การมาถึงของ Flux Kontext ในปีนี้และการเผยแพร่น้ำหนักโมเดล Qwen Image Edit ที่ไม่มีการปรับให้เหมาะสม ได้นำข้อมูลจับคู่กลับมาเป็นจุดสนใจอีกครั้ง ในชุมชนที่ใช้ AI เป็นงานอดิเรกหรือในระดับมืออาชีพ
ในกรณีนี้ การใช้ระบบการเปลี่ยนแปลงรูปร่างร่างกายดูเหมือนจะมีประโยชน์ในด้านจิตวิทยา การแพทย์ และแฟชั่น อย่างไรก็ตาม ยังคงเป็นไปได้ที่ระบบเหล่านี้จะถูกใช้ในระดับที่สูงขึ้น และอาจมีการใช้งานที่ไม่เหมาะสมหรือเป็นเรื่องที่น่ากังวล
การเปลี่ยนแปลงรูปร่างร่างกายด้วย AI นั้นเป็นเทคโนโลยีที่มีศักยภาพในการเปลี่ยนแปลงหลายด้านของชีวิต แต่ก็จำเป็นต้องมีการพัฒนาและใช้งานที่รับผิดชอบเพื่อให้แน่ใจว่าเทคโนโลยีนี้จะถูกนำไปใช้เพื่อประโยชน์ของทุกคน
เผยแพร่ครั้งแรกวันจันทร์ที่ 25 สิงหาคม 2025












