เชื่อมต่อกับเรา

ปลอมร่างกายที่ 'ดีกว่า' ด้วย AI

ปัญญาประดิษฐ์

ปลอมร่างกายที่ 'ดีกว่า' ด้วย AI

mm
วันที่อัพเดท on

งานวิจัยใหม่จากสถาบัน Alibaba DAMO นำเสนอขั้นตอนการทำงานที่ขับเคลื่อนด้วย AI สำหรับการปรับรูปร่างของร่างกายโดยอัตโนมัติ ซึ่งเป็นความพยายามที่หาได้ยากในภาคการมองเห็นของคอมพิวเตอร์ที่กำลังครอบครองอยู่ในปัจจุบัน การจัดการตามใบหน้า เช่น deepfakes และ GAN-based แก้ไขใบหน้า.

สิ่งที่ใส่ไว้ในคอลัมน์ 'ผลลัพธ์' แผนที่ความสนใจที่สร้างขึ้นซึ่งกำหนดพื้นที่ที่จะแก้ไข ที่มา: https://arxiv.org/pdf/2203.04670.pdf

สิ่งที่ใส่ไว้ในคอลัมน์ 'ผลลัพธ์' แผนที่ความสนใจที่สร้างขึ้นซึ่งกำหนดพื้นที่ที่จะแก้ไข ที่มา: https://arxiv.org/pdf/2203.04670.pdf

สถาปัตยกรรมของนักวิจัยใช้การประมาณท่าทางของโครงกระดูกเพื่อจัดการกับความซับซ้อนที่มากขึ้นซึ่งระบบการสังเคราะห์และแก้ไขภาพเผชิญในการกำหนดแนวคิดและการกำหนดพารามิเตอร์ของภาพร่างกายที่มีอยู่ อย่างน้อยก็ในระดับความละเอียดที่อนุญาตให้มีการแก้ไขที่มีความหมายและเลือกสรรได้

แผนที่โครงกระดูกโดยประมาณช่วยแยกแยะและเน้นความสนใจไปที่ส่วนของร่างกายที่มีแนวโน้มว่าจะได้รับการรีทัช เช่น บริเวณต้นแขน

ในท้ายที่สุด ระบบช่วยให้ผู้ใช้สามารถตั้งค่าพารามิเตอร์ที่สามารถเปลี่ยนลักษณะที่ปรากฏของน้ำหนัก มวลกล้ามเนื้อ หรือการกระจายน้ำหนักในภาพถ่ายแบบเต็มความยาวหรือความยาวกลางของผู้คน และสามารถสร้างการเปลี่ยนแปลงตามอำเภอใจในส่วนของร่างกายที่สวมเสื้อผ้าหรือไม่สวมเสื้อผ้า

ซ้าย, ภาพเข้า; ตรงกลาง แผนที่ความร้อนของพื้นที่ความสนใจที่ได้รับ ใช่แล้ว ภาพที่แปลงแล้ว

ซ้าย, ภาพเข้า; ตรงกลาง แผนที่ความร้อนของพื้นที่ความสนใจที่ได้รับ ใช่แล้ว ภาพที่แปลงแล้ว

แรงจูงใจในการทำงานคือการพัฒนาเวิร์กโฟลว์อัตโนมัติที่สามารถแทนที่การจัดการทางดิจิทัลที่ลำบากซึ่งดำเนินการโดยช่างภาพและศิลปินกราฟิกการผลิตในสาขาต่างๆ ของสื่อ ตั้งแต่แฟชั่นไปจนถึงรูปแบบนิตยสารและ สื่อประชาสัมพันธ์.

โดยทั่วไปแล้ว ผู้เขียนรับทราบว่าการแปลงเหล่านี้มักจะใช้กับเทคนิค 'วาร์ป' ใน Photoshop และโปรแกรมแก้ไขบิตแมปแบบดั้งเดิมอื่นๆ และแทบจะใช้กับภาพผู้หญิงโดยเฉพาะ ด้วยเหตุนี้ ชุดข้อมูลแบบกำหนดเองที่พัฒนาขึ้นเพื่ออำนวยความสะดวกในกระบวนการใหม่จึงประกอบด้วยรูปภาพของผู้หญิงเป็นส่วนใหญ่:

'เนื่องจากผู้หญิงต้องการรีทัชร่างกายเป็นหลัก คอลเลกชั่นส่วนใหญ่ของเราจึงเป็นภาพถ่ายผู้หญิง โดยคำนึงถึงความหลากหลายของอายุ เชื้อชาติ (แอฟริกัน:เอเชีย:คอเคเชียน = 0.33:0.35:0.32) ท่าทาง และเสื้อผ้า'

เค้ก กระดาษ มีบรรดาศักดิ์ การสร้างโฟลว์ที่รับรู้ถึงโครงสร้างสำหรับการปรับรูปร่างของร่างกายมนุษย์และมาจากผู้เขียนห้าคนที่เกี่ยวข้องกับสถาบัน DAMO ระดับโลกของอาลีบาบา

การพัฒนาชุดข้อมูล

เช่นเดียวกับในกรณีของระบบสังเคราะห์และแก้ไขภาพ สถาปัตยกรรมสำหรับโครงการจำเป็นต้องมีชุดข้อมูลการฝึกอบรมที่กำหนดเอง ผู้เขียนมอบหมายให้ช่างภาพสามคนสร้างการปรับแต่ง Photoshop มาตรฐานของรูปภาพที่เหมาะสมจากเว็บไซต์ถ่ายภาพสต็อก Unsplash ส่งผลให้ชุดข้อมูลมีชื่อว่า บีอาร์-5เค* – ภาพคุณภาพสูง 5,000 ภาพ ที่ความละเอียด 2K

นักวิจัยเน้นย้ำว่าวัตถุประสงค์ของการฝึกอบรมในชุดข้อมูลนี้ไม่ใช่เพื่อสร้างคุณลักษณะ 'ในอุดมคติ' และลักษณะทั่วไปที่เกี่ยวข้องกับดัชนีความน่าดึงดูดใจหรือรูปลักษณ์ที่พึงปรารถนา แต่เพื่อแยกการแมปคุณลักษณะส่วนกลางที่เกี่ยวข้องกับการปรับแต่งภาพร่างกายอย่างมืออาชีพ

อย่างไรก็ตาม พวกเขายอมรับว่าในท้ายที่สุดแล้ว การปรับเปลี่ยนนั้นสะท้อนถึงกระบวนการเปลี่ยนแปลงที่เชื่อมโยงความก้าวหน้าจาก 'ของจริง' ไปสู่แนวคิดที่ตั้งไว้ล่วงหน้าของ 'อุดมคติ':

'เราขอเชิญศิลปินมืออาชีพ XNUMX คนมารีทัชร่างกายโดยใช้ Photoshop แยกกัน โดยมีเป้าหมายเพื่อให้ได้รูปร่างที่สมส่วนซึ่งตรงกับสุนทรียภาพยอดนิยม และเลือกสิ่งที่ดีที่สุดตามความเป็นจริง'

เนื่องจากเฟรมเวิร์กไม่ได้จัดการกับใบหน้าเลย สิ่งเหล่านี้จึงถูกเบลอก่อนที่จะรวมอยู่ในชุดข้อมูล

สถาปัตยกรรมและแนวคิดหลัก

เวิร์กโฟลว์ของระบบเกี่ยวข้องกับการป้อนภาพบุคคลที่มีความละเอียดสูง สุ่มตัวอย่างให้มีความละเอียดต่ำลงเพื่อให้พอดีกับทรัพยากรการประมวลผลที่มีอยู่ และแยกท่าทางแผนที่โครงร่างโดยประมาณ (ตัวเลขที่สองจากซ้ายในภาพด้านล่าง) รวมถึงฟิลด์ความเกี่ยวข้องของส่วน (PAFs) ซึ่งได้แก่ คิดค้น ในปี 2016 โดย The Robotics Institute แห่งมหาวิทยาลัย Carnegie Mellon (ดูวิดีโอที่ฝังไว้ด้านล่าง)

การประมาณท่าทางของมนุษย์ 2 มิติแบบหลายคนตามเวลาจริงโดยใช้ฟิลด์ความสัมพันธ์ส่วน, CVPR 2017 ช่องปาก

ฟิลด์ความเกี่ยวข้องของส่วนช่วยในการกำหนดทิศทางของแขนขาและความสัมพันธ์ทั่วไปกับโครงร่างโครงร่างที่กว้างขึ้น ทำให้โครงการใหม่มีเครื่องมือให้ความสนใจ/การแปลเป็นภาษาท้องถิ่นเพิ่มเติม

จากกระดาษ Part Affinity Fields ปี 2016 PAF ที่คาดการณ์ไว้เข้ารหัสการวางแนวของแขนขาเป็นส่วนหนึ่งของเวกเตอร์ 2 มิติที่รวมถึงตำแหน่งทั่วไปของแขนขาด้วย ที่มา: https://arxiv.org/pdf/1611.08050.pdf

จากกระดาษ Part Affinity Fields ปี 2016 PAF ที่คาดการณ์ไว้เข้ารหัสการวางแนวของแขนขาเป็นส่วนหนึ่งของเวกเตอร์ 2 มิติที่รวมถึงตำแหน่งทั่วไปของแขนขาด้วย ที่มา: https://arxiv.org/pdf/1611.08050.pdf

แม้ว่าจะไม่เกี่ยวข้องกับรูปลักษณ์ของน้ำหนัก แต่แผนที่โครงกระดูกก็มีประโยชน์ในการกำกับกระบวนการเปลี่ยนแปลงขั้นสุดท้ายไปยังส่วนต่างๆ ของร่างกายที่จะแก้ไข เช่น ต้นแขน หลัง และต้นขา

หลังจากนี้ ผลลัพธ์จะถูกส่งไปยังการใส่ใจตนเองตามความสัมพันธ์ของโครงสร้าง (SASA) ที่คอขวดกลางของกระบวนการ (ดูภาพด้านล่าง)

SASA ควบคุมความสม่ำเสมอของเครื่องกำเนิดการไหลที่เติมเชื้อเพลิงให้กับกระบวนการ จากนั้นผลลัพธ์จะถูกส่งผ่านไปยังโมดูลการแปรปรวน (ที่สองจากขวาในภาพด้านบน) ซึ่งใช้การแปลงที่เรียนรู้จากการฝึกอบรมเกี่ยวกับการแก้ไขด้วยตนเองที่รวมอยู่ในชุดข้อมูล .

โมดูล Attention Self-Affinity (SASA) ของโครงสร้างจะจัดสรรความสนใจไปยังส่วนต่างๆ ของร่างกายที่เกี่ยวข้อง ช่วยหลีกเลี่ยงการเปลี่ยนแปลงภายนอกหรือไม่เกี่ยวข้อง

โมดูล Attention Self-Affinity (SASA) ของโครงสร้างจะจัดสรรความสนใจไปยังส่วนต่างๆ ของร่างกายที่เกี่ยวข้อง ช่วยหลีกเลี่ยงการเปลี่ยนแปลงภายนอกหรือไม่เกี่ยวข้อง

รูปภาพที่ส่งออกจะถูกอัพตัวอย่างกลับไปเป็นความละเอียด 2K ดั้งเดิมในภายหลัง โดยใช้กระบวนการที่ไม่ต่างไปจากสถาปัตยกรรม Deepfake สไตล์มาตรฐานปี 2017 ซึ่งใช้แพ็คเกจยอดนิยมเช่น DeepFaceLab ตั้งแต่นั้นเป็นต้นมา กระบวนการสุ่มตัวอย่างยังพบได้ทั่วไปในเฟรมเวิร์กการแก้ไข GAN

เครือข่ายความสนใจสำหรับสคีมาเป็นต้นแบบ องค์ประกอบเครือข่ายไม่สนใจ (CODA) ความร่วมมือทางวิชาการระหว่างสหรัฐอเมริกา/สิงคโปร์กับ Amazon AI และ Microsoft ในปี 2019

การทดสอบ

เฟรมเวิร์กตามโฟลว์ได้รับการทดสอบกับวิธีการโฟลว์ก่อนหน้านี้ FAL และแอนิเมชันผ่านการแปรปรวน (ATW) เช่นเดียวกับสถาปัตยกรรมการแปลรูปภาพ Pix2PixHD และ กฟผมี SSIM, PSNR และ LPIPS เป็นเมตริกการประเมิน

ผลลัพธ์ของการทดสอบเบื้องต้น (ทิศทางลูกศรในส่วนหัวระบุว่าตัวเลขที่ต่ำกว่าหรือสูงกว่านั้นดีที่สุด)

ผลลัพธ์ของการทดสอบเบื้องต้น (ทิศทางลูกศรในส่วนหัวระบุว่าตัวเลขที่ต่ำกว่าหรือสูงกว่านั้นดีที่สุด)

ตามเมตริกที่นำมาใช้เหล่านี้ ระบบของผู้เขียนมีประสิทธิภาพดีกว่าสถาปัตยกรรมรุ่นก่อนๆ

ผลลัพธ์ที่เลือก โปรดดู PDF ต้นฉบับที่ลิงก์ในบทความนี้สำหรับการเปรียบเทียบความละเอียดสูงกว่า

ผลลัพธ์ที่เลือก โปรดดู PDF ต้นฉบับที่ลิงก์ในบทความนี้สำหรับการเปรียบเทียบความละเอียดสูงกว่า

นอกจากเมตริกอัตโนมัติแล้ว นักวิจัยยังได้ทำการศึกษาผู้ใช้ (คอลัมน์สุดท้ายของตารางผลลัพธ์ตามภาพก่อนหน้านี้) โดยผู้เข้าร่วม 40 คนแต่ละคนแสดงคำถาม 30 ข้อแบบสุ่มเลือกจากกลุ่มคำถาม 100 ข้อที่เกี่ยวข้องกับภาพที่สร้างขึ้นด้วยวิธีการต่างๆ 70% ของผู้ตอบแบบสอบถามชอบเทคนิคใหม่นี้เพราะ 'ดึงดูดสายตา' มากกว่า

ชาเลนจ์ (Challenge)

เอกสารฉบับใหม่นี้แสดงถึงการเดินทางที่หาได้ยากในการควบคุมร่างกายโดยใช้ AI ปัจจุบัน ภาคการสังเคราะห์ภาพมีความสนใจอย่างมากในการสร้างเนื้อหาที่แก้ไขได้ด้วยวิธีต่างๆ เช่น Neural Radiance Fields (NeRF) หรืออย่างอื่นมุ่งเน้นไปที่การสำรวจพื้นที่แฝงของ GAN และศักยภาพของตัวเข้ารหัสอัตโนมัติสำหรับการจัดการใบหน้า

ความคิดริเริ่มของผู้เขียนในปัจจุบันจำกัดอยู่ที่การเปลี่ยนแปลงน้ำหนักที่รับรู้ และพวกเขายังไม่ได้ใช้เทคนิคการวาดภาพใดๆ ที่จะคืนค่าพื้นหลังที่เปิดเผยอย่างหลีกเลี่ยงไม่ได้เมื่อคุณทำให้รูปภาพของใครบางคนผอมลง

อย่างไรก็ตาม พวกเขาเสนอว่าการผสมภาพบุคคลและพื้นหลังผ่านการอนุมานเชิงพื้นผิวสามารถแก้ปัญหาได้เล็กน้อยในการฟื้นฟูส่วนต่าง ๆ ของโลกที่ก่อนหน้านี้ซ่อนอยู่ในภาพโดย 'ความไม่สมบูรณ์' ของมนุษย์

วิธีแก้ปัญหาที่เสนอสำหรับการกู้คืนพื้นหลังที่เปิดเผยโดยการลดไขมันที่ขับเคลื่อนด้วย AI

วิธีแก้ปัญหาที่เสนอสำหรับการกู้คืนพื้นหลังที่เปิดเผยโดยการลดไขมันที่ขับเคลื่อนด้วย AI

 

* แม้ว่าการพิมพ์ล่วงหน้าจะอ้างถึงเนื้อหาเพิ่มเติมที่ให้รายละเอียดเพิ่มเติมเกี่ยวกับชุดข้อมูล รวมถึงตัวอย่างเพิ่มเติมจากโครงการ แต่ตำแหน่งของเนื้อหานี้ยังไม่มีอยู่ในเอกสารนี้ และผู้เขียนที่เกี่ยวข้องยังไม่ได้ตอบกลับคำขอการเข้าถึงของเรา .

เผยแพร่ครั้งแรก 10 มีนาคม 2022

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านการสังเคราะห์ภาพของมนุษย์ อดีตหัวหน้าฝ่ายเนื้อหาการวิจัยที่ Metaphysic.ai
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai