มุมมองของ Anderson

ข้อดีของการเพิ่มน้ำหนักผ่าน AI

mm
Images of synthetically altered data, from the paper 'Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping at https://arxiv.org/abs/2508.13065

ระบบ AI ใหม่สามารถเปลี่ยนรูปร่างของร่างกายในภาพให้สมจริงได้ โดยการทำให้ผู้คนในภาพมีน้ำหนักมากขึ้น หรือกล้ามเนื้อมากขึ้น โดยไม่ต้องเปลี่ยนใบหน้า เสื้อผ้า หรือพื้นหลัง ระบบนี้ได้รับการฝึกฝนจากชุดข้อมูลสังเคราะห์ที่แสดงถึงอัตลักษณ์ของแต่ละคนในหลายรูปแบบของร่างกาย

 

นอกจากการใช้ AI ในการปรับเปลี่ยนรูปร่างบนเครือข่ายสังคมหรือสำหรับวัตถุประสงค์ VFX แล้ว การใช้การเรียนรู้ของเครื่องจักรเพื่อเปลี่ยนแปลงรูปร่างของบุคคลยังสามารถมีหน้าที่สำคัญในการช่วยให้บุคคลที่มีปัญหาการกินมองเห็นและเข้าใจร่างกายของตนเองได้ดีขึ้น รวมถึงการให้แรงบันดาลใจในการออกกำลังกายและกีฬา

จากงานวิจัย 'การประมาณการขนาดร่างกายในผู้หญิงที่มีอาการกินไม่เหมาะสมและผู้ที่มีสุขภาพดีโดยใช้อวตาร 3 มิติ' GUI สำหรับการแสดงการเปลี่ยนแปลงรูปร่างร่างกาย บุคคลที่มีปัญหาการกินอาจมีความยากในการเชื่อมโยงภาพลักษณ์ที่สมจริงของตนเองกับภาพที่คล้ายคลึงกัน ทำให้แพทย์มีมาตรการในการตอบสนองต่อการเปลี่ยนแปลงรูปร่าง

จากงานวิจัย ‘การประมาณการขนาดร่างกายในผู้หญิงที่มีอาการกินไม่เหมาะสมและผู้ที่มีสุขภาพดีโดยใช้อวตาร 3 มิติ’ GUI สำหรับการแสดงการเปลี่ยนแปลงรูปร่างร่างกาย บุคคลที่มีปัญหาการกินอาจมีความยากในการเชื่อมโยงภาพลักษณ์ที่สมจริงของตนเองกับภาพที่คล้ายคลึงกัน ทำให้แพทย์มีมาตรการในการตอบสนองต่อการเปลี่ยนแปลงรูปร่าง Source: https://www.nature.com/articles/s41598-017-15339-z.pdf

นอกจากนี้ การวิจัยเกี่ยวกับการลองเสื้อผ้าเสมือนจริงในด้านการมองเห็นคอมพิวเตอร์ยังมีความสนใจในการให้ภาพลักษณ์ที่แม่นยำข้ามรูปร่างร่างกายที่หลากหลาย ในขณะที่เฟรมเวิร์กอย่าง DiffBody ในปี 2024 จากมหาวิทยาลัย Tsukuba ในญี่ปุ่นได้สร้างฟังก์ชันการทำงานที่น่าประทับใจในด้านนี้

การเปลี่ยนแปลงที่เป็นไปได้โดยใช้เทคนิค DiffBody ก่อนหน้า Source: https://arxiv.org/pdf/2401.02804

การเปลี่ยนแปลงที่เป็นไปได้โดยใช้เทคนิค DiffBody ก่อนหน้า Source: https://arxiv.org/pdf/2401.02804

เนื่องจากโมเดล AI ที่ใช้ฐานข้อมูลทั่วไปมักจะถูกปรับให้เหมาะสมกับรูปร่างที่สวยงามหรือทั่วไป จึงทำให้รูปร่างที่ไม่ปกติ เช่น ‘อ้วน’ มักจะไม่มีอยู่ในโมเดลเหล่านี้หรือมีอคติที่รุนแรง

ความจำเป็นในการจับคู่

หนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดในการสร้างระบบ AI ที่สามารถเปลี่ยนแปลงรูปร่างร่างกายในภาพได้อย่างสมจริง โดยไม่ต้องเปลี่ยนใบหน้า สภาพแวดล้อม หรือเสื้อผ้า คือการฝึกอบรมแบบ ‘จับคู่’ ซึ่งระบบ AI จะเรียนรู้จากภาพ ‘ก่อน’ และ ‘หลัง’ ที่กำหนดการเปลี่ยนแปลงที่ต้องการ

การฝึกอบรมประเภทนี้ได้กลับมามีความสำคัญอีกครั้งในช่วงฤดูร้อนเนื่องจากความสำเร็จของโมเดล Flux Kontext ของ Black Forest Labs ซึ่งใช้ข้อมูลจับคู่เพื่อสอนการเปลี่ยนแปลงหลายอย่างให้กับโมเดล

ตัวอย่างการเปลี่ยนแปลงจากเว็บไซต์ Flux Kontext ซึ่งแสดงถึงข้อมูลที่จำเป็นในการฝึกอบรมโมเดลที่สามารถรักษาคุณภาพของภาพเมื่อมีการเปลี่ยนแปลงที่สำคัญ Source: https://bfl.ai/models/flux-kontext

ตัวอย่างการเปลี่ยนแปลงจากเว็บไซต์ Flux Kontext ซึ่งแสดงถึงข้อมูลที่จำเป็นในการฝึกอบรมโมเดลที่สามารถรักษาคุณภาพของภาพเมื่อมีการเปลี่ยนแปลงที่สำคัญ Source: https://bfl.ai/models/flux-kontext

อย่างไรก็ตาม ในการสร้างโมเดลที่สามารถเปลี่ยนแปลงรูปร่างร่างกายได้อย่างมีนัยสำคัญโดยไม่ต้องสร้างภาพใหม่ทั้งหมด เราต้องการสิ่งที่เป็นไปไม่ได้ในโลกแห่งความเป็นจริง: ภาพ ‘ก่อน’ และ ‘หลัง’ ที่ถ่ายในเวลาเดียวกัน

ทางออกเดียวคือการใช้ข้อมูลสังเคราะห์ โครงการบางอย่างได้ใช้ข้อมูลจับคู่ที่สร้างขึ้นโดยใช้ Photoshop อย่างไรก็ตาม วิธีนี้ไม่เหมาะสมสำหรับการใช้งานในระดับใหญ่ และกระบวนการที่ขับเคลื่อนด้วย AI ซึ่งเป็นแบบอัตโนมัติหรือแบบกึ่งอัตโนมัติ ถือเป็นวิธีที่ดีกว่า

ปัญหาในการใช้โมเดลที่ใช้ GAN หรือ SMPL/X คือ พื้นหลังและอัตลักษณ์ของบุคคลมักจะถูกเปลี่ยนแปลงไปในกระบวนการนี้

โมเดล CGI แบบพาราเมตริก เช่น SMPL และ SMPL-X ให้พิกัด 3 มิติที่กำหนดไว้ซึ่งสามารถถูกตีความและรวมเข้ากับเฟรมเวิร์กการมองเห็นคอมพิวเตอร์ Source: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

โมเดล CGI แบบพาราเมตริก เช่น SMPL และ SMPL-X ให้พิกัด 3 มิติที่กำหนดไว้ซึ่งสามารถถูกตีความและรวมเข้ากับเฟรมเวิร์กการมองเห็นคอมพิวเตอร์ Source: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

เนื่องจากเป็นสิ่งสำคัญที่ระบบ AI จะเรียนรู้เพื่อเปลี่ยนแปลงเฉพาะส่วนที่ต้องการเท่านั้น และไม่เปลี่ยนแปลงพื้นหลังหรือสิ่งอื่น ๆ ที่ไม่จำเป็น จึงไม่มีระบบใดที่สามารถบรรลุผลลัพธ์ที่สมบูรณ์แบบได้

อย่างไรก็ตาม โครงการวิจัยล่าสุดจากอินเดียได้เสนอแนวทางที่ดีกว่าโดยใช้เฟรมเวิร์ก Flux ที่เก่ากว่า โดยเพิ่มวิธีการอื่น ๆ เพื่อให้ได้ชุดข้อมูลจับคู่ที่ดีกว่า

ตัวอย่างจากชุดข้อมูลใหม่ Source: https://arxiv.org/pdf/2508.13065

ตัวอย่างจากชุดข้อมูลใหม่ Source: https://arxiv.org/pdf/2508.13065

โครงการนี้ประกอบด้วยชุดข้อมูลจับคู่ใหม่และกว้างขวาง; โมเดลการกระจาย Odo ที่ฝึกอบรมจากข้อมูลนี้; และมาตรฐานใหม่ที่ออกแบบมาเพื่อประเมินประสิทธิภาพการเปลี่ยนแปลงรูปร่างร่างกายของมนุษย์ ในการทดสอบ โครงการนี้อ้างว่าสามารถทำได้ดีกว่าโมเดลที่คล้ายกัน

งานวิจัยใหม่นี้มีชื่อว่า Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping และมาจากนักวิจัยสามคนจาก Fast Code AI Pvt. Ltd ใน Bangalore

ข้อมูลและวิธีการ

ชุดข้อมูลที่นักวิจัยสร้างขึ้นมี 7,615 ภาพที่มีความละเอียดสูง (960x1280px) สำหรับแต่ละรูปร่างร่างกาย (อ้วน, ผอม, และกล้ามเนื้อ)

ในตอนแรก 1,523 ใบหน้ามนุษย์ได้รับการสร้างขึ้นโดยใช้โมเดล FLUX.1-dev ที่มีพารามิเตอร์ 12 พันล้านตัว โดยใช้ใบหน้าจาก Pexels และ Unsplash เพื่อเพิ่มความหลากหลาย

เพื่อสร้างภาพร่างกายเต็มโดยใช้ใบหน้าเหล่านี้ นักวิจัยใช้ PuLID ของ ByteDance ในปี 2024 ซึ่งเป็นโมเดลที่ปรับให้เหมาะสมจาก Flux และมีการสูญเสียความแตกต่างที่ช่วยรักษาอัตลักษณ์ของใบหน้าระหว่างการเปลี่ยนแปลง

ตัวอย่างจากโครงการ PuLID Source: https://arxiv.org/pdf/2404.16022

ตัวอย่างจากโครงการ PuLID Source: https://arxiv.org/pdf/2404.16022

โมเดลได้รับภาพใบหน้าและคำสั่งมาตรฐานที่ขอให้ระบุ ‘เพศ’, ‘เสื้อผ้า’, ‘ท่า’, ‘ฉาก’, และรูปร่างร่างกาย (‘ผอม’, ‘อ้วน’, หรือ ‘กล้ามเนื้อ’)

ภาพร่างกายสามภาพสำหรับอัตลักษณ์แต่ละภาพอาจมีการเปลี่ยนแปลงเล็กน้อยในพื้นหลังและการจัดขนาดของวัตถุ ซึ่งเกิดจากพฤติกรรมสุ่มของโมเดลการกระจาย โดยที่การสร้างภาพใหม่เริ่มต้นจาก ‘เสียง’ สุ่มใหม่ทุกครั้ง

เพื่อแก้ไขปัญหานี้ นักวิจัยใช้กระบวนการหลังการประมวลผลอัตโนมัติ 4 ขั้นตอน โดยเลือกภาพ ‘ผอม’ เป็นภาพอ้างอิง เนื่องจากมีส่วนเงาเล็กกว่าและแสดงพื้นหลังมากกว่า

การตรวจจับบุคคลถูกทำโดยใช้ RT-DETRv2 และการแบ่งส่วนโดยใช้ SAM 2.1 เพื่อแยกหน้ากากวัตถุสำหรับรูปร่างร่างกายทั้งสาม

ภาพอ้างอิง ‘ผอม’ ถูกส่งผ่าน FLUX.1 Kontext Pro สำหรับการทาสีพื้นหลังใหม่เพื่อให้ได้ภาพพื้นหลังที่สะอาด โดยไม่มีวัตถุ

รูป ‘อ้วน’ และ ‘กล้ามเนื้อ’ ถูกปรับขนาดโดยใช้การขยายขนาดแบบสม่ำเสมอเพื่อให้เข้ากับความสูงของหน้ากากอ้างอิง ‘ผอม’ และถูกวางบนพื้นหลังที่สะอาดโดยการวางตำแหน่งที่ด้านล่างให้เท่ากัน เพื่อให้ได้เฟรมที่สม่ำเสมอทั้งสามภาพ

นักวิจัยระบุว่า:

‘การเปลี่ยนแปลงสามแบบ (ผอม, อ้วน, และกล้ามเนื้อ) มีพื้นหลังและขนาดวัตถุที่เหมือนกัน ซึ่งจะลบการเปลี่ยนแปลงที่ไม่เกี่ยวข้องที่อาจส่งผลเสียต่อการฝึกอบรมหรือการประเมินในภายหลัง’

การเปลี่ยนแปลงสามแบบสำหรับอัตลักษณ์แต่ละแบบทำให้ได้คู่เปลี่ยนแปลงที่เป็นไปได้หกแบบ ซึ่งนำไปสู่การรวม 45,690 คู่ที่เป็นไปได้จากอัตลักษณ์ 7,615 แบบ

หลังจากกรองออกแล้ว นักวิจัยได้ 18,573 คู่ที่มีคุณภาพสูง

การฝึกอบรมและการทดสอบ

ภาพเหล่านี้ถูกใช้ในการฝึกอบรมโมเดล Odo ซึ่งเป็นแนวทางที่ใช้การกระจายเพื่อเปลี่ยนแปลงรูปร่างร่างกาย โดยใช้ SMPL (Skinned Multi-Person Linear) เป็นโมเดล CGI ระหว่างกลาง

โดยได้รับแรงบันดาลใจจากวิธีการของ Neural Localizer ในปี 2024 นักวิจัยได้ปรับข้อมูลให้เข้ากับโมเดล SMPL สำหรับแต่ละบุคคล โดยใช้พารามิเตอร์ที่ได้รับการปรับให้เหมาะสมเพื่อสร้างแผนที่ความลึก ซึ่งจะนำไปใช้ในการสร้างภาพที่เปลี่ยนแปลง

สเคมาสำหรับกระบวนการฝึกอบรม โมเดล Odo ประกอบด้วย ReshapeNet, ReferenceNet, IP-Adapter, และ Depth ControlNet

สเคมาสำหรับกระบวนการฝึกอบรม โมเดล Odo ประกอบด้วย ReshapeNet, ReferenceNet, IP-Adapter, และ Depth ControlNet

โมเดลประกอบด้วยโมดูล ReshapeNet ที่ได้รับการสนับสนุนจากสามโมดูลอื่น ๆ: ReferenceNet, IP-Adapter, และ Depth ControlNet

ReferenceNet จะดึงคุณลักษณะเชิงลึก เช่น พื้นหลัง เสื้อผ้า และอัตลักษณ์จากภาพเข้า และส่งไปยัง ReshapeNet

IP-Adapter ให้คำแนะนำคุณลักษณะระดับสูง ในขณะที่ Depth ControlNet ใช้การควบคุมตามความลึกจาก SMPL เพื่อชี้นำการเปลี่ยนแปลงรูปร่างร่างกาย

ReshapeNet เป็นโมเดลหลักของ Odo และใช้ UNet ที่มีการแช่แข็งและปรับให้เหมาะสมร่วมกับ IP-Adapter

การฝึกอบรมเกิดขึ้นบนชุดข้อมูลสังเคราะห์ที่สร้างขึ้นร่วมกับชุดข้อมูล DeepFashion-MultiModal โดยรวมเป็น 20,000 คู่ภาพ

การฝึกอบรมใช้เวลา 60 เอพพอกบน GPU NVIDIA A100 ที่มี VRAM 80GB โดยใช้อัลกอริทึม Adam และอัตราการเรียนรู้ 1×10⁻⁵

โมเดลสุดท้ายต้องการประมาณ 23GB ของหน่วยความจำ GPU และใช้เวลา 18 วินาทีในการประมวลผลภาพเดียว

การนำไปใช้ในการฝึกอบรม

โมเดล Odo ถูกฝึกอบรมบนชุดข้อมูลสังเคราะห์ที่สร้างขึ้น โดยใช้ SMPL เป็นโมเดล 3 มิติ ระหว่างกลาง

การฝึกอบรมเกิดขึ้นบนชุดข้อมูลที่รวม 20,000 คู่ภาพ โดยใช้ GPU NVIDIA A100 และอัลกอริทึม Adam

มาตรฐานใหม่

เนื่องจากไม่มีชุดข้อมูลที่เหมาะสมสำหรับโครงการนี้ นักวิจัยจึงสร้างมาตรฐานใหม่ที่ประกอบด้วย 3,600 คู่ภาพ โดยมีใบหน้าและพื้นหลังที่หลากหลาย และการเปลี่ยนแปลงรูปร่างร่างกาย

นอกเหนือจากมาตรฐานใหม่นี้แล้ว ยังมีการใช้มาตรฐานอื่น ๆ เช่น SSIM, PSNR, LPIPS, และ PVE-T-SC

นักวิจัยทดสอบวิธีการของตนในเชิงคุณภาพกับภาพที่ไม่ได้ใช้ในการฝึกอบรม

การทดสอบเชิงคุณภาพ ตัวอย่างการเปลี่ยนแปลงจากภาพเดิมเป็นรูปร่างที่ผอมกว่า อ้วนกว่า และกล้ามเนื้อมากกว่า ในท่าทางต่าง ๆ

การทดสอบเชิงคุณภาพ ตัวอย่างการเปลี่ยนแปลงจากภาพเดิมเป็นรูปร่างที่ผอมกว่า อ้วนกว่า และกล้ามเนื้อมากกว่า ในท่าทางต่าง ๆ

ผลลัพธ์แสดงให้เห็นว่า:

‘วิธีการของเราสามารถจัดการกับท่าทาง พื้นหลัง และเสื้อผ้าได้อย่างมีประสิทธิภาพ ในขณะเดียวกันก็รักษาอัตลักษณ์ของบุคคลไว้’

‘นอกเหนือจาก SMPL แล้ว เรายังให้คำสั่งเชิงข้อความ เช่น ‘ทำให้ผอมกว่า’, ‘ทำให้อ้วนกว่า’, หรือ ‘ทำให้มีกล้ามเนื้อมากกว่า’ เพื่อชี้นำการเปลี่ยนแปลงที่ต้องการ…’

…'[ภาพด้านล่าง] แสดงให้เห็นถึงความสามารถของโมเดลในการทำการเปลี่ยนแปลงรูปร่างที่หลากหลาย’

การทดสอบเชิงคุณภาพเพิ่มเติมที่ครอบคลุมรูปร่างร่างกายที่แตกต่างกัน

การทดสอบเชิงคุณภาพเพิ่มเติมที่ครอบคลุมรูปร่างร่างกายที่แตกต่างกัน

นักวิจัยยังระบุว่า:

‘ผลลัพธ์ของเราแสดงให้เห็นการเปลี่ยนแปลงที่สมจริงยิ่งขึ้นตามน้ำหนักที่ต้องการ โดยที่โมเดลของเราจะปรับเปลี่ยนรูปร่างร่างกายทั้งหมด ขา และเสื้อผ้าเพื่อให้ได้การเปลี่ยนแปลงที่สอดคล้องกันและน่าเชื่อถือ’

ในการทดสอบเชิงปริมาณ นักวิจัยเปรียบเทียบวิธีการของตนกับโมเดล Flux Kontext [dev] และโมเดล Structure-Aware Flow Generation for Human Body Reshaping ในปี 2022

การเปรียบเทียบระหว่าง Odo และโมเดลอื่น ๆ

การเปรียบเทียบระหว่าง Odo และโมเดลอื่น ๆ

สรุป

การมาถึงของ Flux Kontext ในปีนี้และการเผยแพร่น้ำหนักโมเดล Qwen Image Edit ที่ไม่มีการปรับให้เหมาะสม ได้นำข้อมูลจับคู่กลับมาเป็นจุดสนใจอีกครั้ง ในชุมชนที่ใช้ AI เป็นงานอดิเรกหรือในระดับมืออาชีพ

ในกรณีนี้ การใช้ระบบการเปลี่ยนแปลงรูปร่างร่างกายดูเหมือนจะมีประโยชน์ในด้านจิตวิทยา การแพทย์ และแฟชั่น อย่างไรก็ตาม ยังคงเป็นไปได้ที่ระบบเหล่านี้จะถูกใช้ในระดับที่สูงขึ้น และอาจมีการใช้งานที่ไม่เหมาะสมหรือเป็นเรื่องที่น่ากังวล

การเปลี่ยนแปลงรูปร่างร่างกายด้วย AI นั้นเป็นเทคโนโลยีที่มีศักยภาพในการเปลี่ยนแปลงหลายด้านของชีวิต แต่ก็จำเป็นต้องมีการพัฒนาและใช้งานที่รับผิดชอบเพื่อให้แน่ใจว่าเทคโนโลยีนี้จะถูกนำไปใช้เพื่อประโยชน์ของทุกคน

 

เผยแพร่ครั้งแรกวันจันทร์ที่ 25 สิงหาคม 2025

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai