ต้นขั้ว วิธีการ Deepfake แบบใหม่และเรียบง่ายกว่าซึ่งมีประสิทธิภาพเหนือกว่าแนวทางก่อนหน้า - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

วิธีการ Deepfake แบบใหม่และเรียบง่ายกว่าซึ่งมีประสิทธิภาพเหนือกว่าแนวทางก่อนหน้า

mm
วันที่อัพเดท on

ความร่วมมือระหว่างกลุ่มวิจัย AI ของจีนและนักวิจัยในสหรัฐฯ ได้พัฒนาสิ่งที่อาจเป็นนวัตกรรมที่แท้จริงครั้งแรกในเทคโนโลยี Deepfakes นับตั้งแต่ปรากฏการณ์ดังกล่าวเกิดขึ้นเมื่อสี่ปีที่แล้ว

วิธีการใหม่นี้สามารถทำการแลกเปลี่ยนใบหน้าที่มีประสิทธิภาพสูงกว่าเฟรมเวิร์กอื่น ๆ ที่มีอยู่ทั้งหมดในการทดสอบการรับรู้แบบมาตรฐาน โดยไม่จำเป็นต้องรวบรวมและดูแลชุดข้อมูลเฉพาะขนาดใหญ่อย่างละเอียดถี่ถ้วน และฝึกฝนชุดข้อมูลดังกล่าวเป็นเวลาถึงหนึ่งสัปดาห์สำหรับข้อมูลประจำตัวเพียงรายการเดียว สำหรับตัวอย่างที่นำเสนอในรายงานฉบับใหม่ แบบจำลองได้รับการฝึกอบรมเกี่ยวกับ ทั้งหมด จากชุดข้อมูลคนดังยอดนิยมสองชุดบน NVIDIA Tesla P40 GPU หนึ่งชุดเป็นเวลาประมาณสามวัน

วิดีโอแบบเต็มฝังอยู่ท้ายบทความนี้ ในตัวอย่างนี้จากวิดีโอในสื่อเสริมสำหรับกระดาษใหม่ ใบหน้าของ Scarlett Johansson ถูกถ่ายโอนไปยังวิดีโอต้นฉบับ CihaNet ขจัดปัญหาการปกปิดขอบเมื่อทำการสลับ โดยสร้างและบังคับใช้ความสัมพันธ์ที่ลึกซึ้งยิ่งขึ้นระหว่างตัวตนต้นทางและเป้าหมาย ซึ่งหมายถึงการสิ้นสุดของ 'เส้นขอบที่ชัดเจน' และความผิดพลาดในการซ้อนทับอื่น ๆ ที่เกิดขึ้นในแนวทาง Deepfake แบบดั้งเดิม ที่มา: ที่มา: https://mitchellx.github.io/#video

วิดีโอฉบับเต็มอยู่ที่ส่วนท้ายของบทความนี้ ในตัวอย่างนี้จากวิดีโอในเอกสารเสริมที่จัดทำโดยหนึ่งในผู้เขียนรายงานฉบับใหม่ ใบหน้าของ Scarlett Johansson ถูกถ่ายโอนไปยังวิดีโอต้นฉบับ CihaNet ขจัดปัญหาการปกปิดขอบเมื่อทำการสลับ โดยสร้างและบังคับใช้ความสัมพันธ์ที่ลึกซึ้งยิ่งขึ้นระหว่างตัวตนต้นทางและเป้าหมาย ซึ่งหมายถึงการสิ้นสุดของ 'เส้นขอบที่ชัดเจน' และความผิดพลาดในการซ้อนทับอื่น ๆ ที่เกิดขึ้นในแนวทาง Deepfake แบบดั้งเดิม แหล่งที่มา: ที่มา: https://mitchellx.github.io/#video

วิธีการใหม่นี้ช่วยขจัดความจำเป็นในการ "วาง" ตัวตนที่ปลูกถ่ายอย่างหยาบๆ ลงในวิดีโอเป้าหมาย ซึ่งมักนำไปสู่การบอกเล่า สิ่งประดิษฐ์ ที่ปรากฏขึ้นเมื่อใบหน้าปลอมสิ้นสุดลงและใบหน้าที่แท้จริงที่อยู่เบื้องหลังเริ่มต้นขึ้น แทนที่จะใช้ 'แผนที่ภาพหลอน' เพื่อทำการผสมผสานแง่มุมที่มองเห็นได้ลึกขึ้น เนื่องจากระบบแยกตัวตนออกจากบริบทได้อย่างมีประสิทธิภาพมากกว่าวิธีการปัจจุบัน ดังนั้นจึงสามารถผสมผสานตัวตนเป้าหมายในระดับที่ลึกซึ้งยิ่งขึ้น

จากกระดาษ การแปลง CihaNet อำนวยความสะดวกผ่านแผนที่ภาพหลอน (แถวล่าง) ระบบจะใช้ข้อมูลบริบท (เช่น ทิศทางของใบหน้า ผม แว่นตา และการบดบังอื่นๆ เป็นต้น) ทั้งหมดจากภาพที่จะมีการซ้อนทับข้อมูลระบุตัวตนใหม่ และข้อมูลระบุตัวตนบนใบหน้าทั้งหมดจากบุคคลที่จะถูกแทรกลงในภาพ ความสามารถในการแยกใบหน้าออกจากบริบทมีความสำคัญต่อความสำเร็จของระบบ ที่มา: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

จากกระดาษ การแปลง CihaNet อำนวยความสะดวกผ่านแผนที่ภาพหลอน (แถวล่าง) ระบบจะใช้ข้อมูลบริบท (เช่น ทิศทางของใบหน้า ผม แว่นตา และการบดบังอื่นๆ เป็นต้น) ทั้งหมดจากภาพที่จะมีการซ้อนทับข้อมูลระบุตัวตนใหม่ และข้อมูลระบุตัวตนบนใบหน้าทั้งหมดจากบุคคลที่จะถูกแทรกลงในภาพ ความสามารถในการแยกใบหน้าออกจากบริบทมีความสำคัญต่อความสำเร็จของระบบ ที่มา: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

แผนที่ภาพหลอนใหม่ให้บริบทที่สมบูรณ์ยิ่งขึ้นสำหรับการแลกเปลี่ยน ซึ่งตรงข้ามกับหน้ากากแบบแข็งที่มักต้องการการดูแลจัดการที่กว้างขวาง (และในกรณีของ DeepFaceLab การฝึกอบรมแยกต่างหาก) ในขณะที่ให้ความยืดหยุ่นที่จำกัดในแง่ของการรวมตัวตนที่แท้จริงของทั้งสองเข้าด้วยกัน

จากตัวอย่างที่มีให้ในเอกสารเสริม โดยใช้ทั้งชุดข้อมูล FFHQ และ Celeb-A HQ ทั่วทั้ง VGGFace และ Forensics++ สองคอลัมน์แรกแสดงรูปภาพ (ของจริง) ที่สุ่มเลือกเพื่อสลับ สี่คอลัมน์ต่อไปนี้แสดงผลของการแลกเปลี่ยนโดยใช้สี่วิธีที่มีประสิทธิภาพสูงสุดในปัจจุบัน ในขณะที่คอลัมน์สุดท้ายแสดงผลจาก CihaNet มีการใช้ที่เก็บ FaceSwap แทนที่จะเป็น DeepFaceLab ที่ได้รับความนิยมมากกว่า เนื่องจากทั้งสองโปรเจ็กต์เป็นทางแยกของโค้ด Deepfakes ดั้งเดิมปี 2017 บน GitHub แม้ว่าแต่ละโครงการจะเพิ่มโมเดล เทคนิค UI ที่หลากหลายและเครื่องมือเสริม แต่โค้ดพื้นฐานที่ทำให้ Deepfake เป็นไปได้นั้นไม่เคยเปลี่ยนแปลง และยังคงเหมือนกันสำหรับทั้งสองอย่าง ที่มา: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

พื้นที่ กระดาษ, ชื่อ บริบทขั้นตอนเดียวและเครือข่ายภาพหลอนประจำตัวจัดทำขึ้นโดยนักวิจัยในสังกัดของ JD AI Research และมหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ และได้รับการสนับสนุนจาก National Key R&D Program of China ภายใต้ Grant No. 2020AAA0103800 ได้รับการแนะนำในการประชุม ACM International Conference on Multimedia ครั้งที่ 29 เมื่อวันที่ 20-24 ตุลาคม ณ เมืองเฉิงตู ประเทศจีน

ไม่จำเป็นต้องใช้ Parity 'Face-On'

ทั้งซอฟต์แวร์ DeepFake ที่ได้รับความนิยมสูงสุดในปัจจุบันอย่าง DeepFaceLab และ FaceSwap ทางแยกที่แข่งขันกัน ดำเนินการเวิร์กโฟลว์ที่คดเคี้ยวและควบคุมด้วยมือบ่อยๆ เพื่อระบุว่าใบหน้าเอียงไปทางไหน อุปสรรคใดบ้างที่ขวางทางซึ่งต้องจัดการ (อีกครั้ง ด้วยตนเอง) และต้องรับมือกับสิ่งกีดขวางที่น่ารำคาญอื่นๆ อีกมากมาย (รวมถึงแสง) ที่ทำให้การใช้งานห่างไกลจากประสบการณ์ 'ชี้แล้วคลิก' ที่แสดงออกมาอย่างไม่ถูกต้องในสื่อ นับตั้งแต่การถือกำเนิดของ Deepfakes

ในทางตรงกันข้าม CihaNet ไม่ต้องการให้ภาพสองภาพหันเข้าหากล้องโดยตรงเพื่อดึงและใช้ประโยชน์จากข้อมูลระบุตัวตนที่เป็นประโยชน์จากภาพเดียว

ในตัวอย่างเหล่านี้ ชุดของคู่แข่งซอฟต์แวร์ deepfake ถูกท้าทายด้วยภารกิจในการสลับใบหน้าที่ไม่เพียงแต่มีตัวตนที่แตกต่างกันเท่านั้น แต่ยังไม่ใช่ใบหน้าที่เหมือนกันอีกด้วย ซอฟต์แวร์ที่ได้มาจากที่เก็บ deepfakes ดั้งเดิม (เช่น DeepFaceLab และ FaceSwap ที่ได้รับความนิยมอย่างมาก ดังภาพด้านบน) ไม่สามารถจัดการกับความแตกต่างของมุมระหว่างภาพสองภาพที่จะสลับ (ดูคอลัมน์ที่สาม) ในขณะเดียวกัน Cihanet สามารถสรุปตัวตนได้อย่างถูกต้อง เนื่องจาก 'ท่าทาง' ของใบหน้าไม่ได้เป็นส่วนหนึ่งของข้อมูลประจำตัว

ในตัวอย่างเหล่านี้ ชุดของคู่แข่งซอฟต์แวร์ Deepfake ถูกท้าทายด้วยภารกิจในการสลับใบหน้าที่ไม่เพียงแต่มีตัวตนที่แตกต่างกันเท่านั้น แต่ยังไม่ใช่ใบหน้าที่เหมือนกันอีกด้วย ซอฟต์แวร์ที่ได้มาจากที่เก็บ deepfakes ดั้งเดิม (เช่น DeepFaceLab และ FaceSwap ที่ได้รับความนิยมอย่างสูงตามภาพด้านบน) ไม่สามารถจัดการกับความแตกต่างของมุมระหว่างภาพสองภาพที่จะสลับ (ดูคอลัมน์ที่สาม) ในขณะเดียวกัน CihaNet สามารถสรุปตัวตนได้อย่างถูกต้อง เนื่องจาก 'ท่าทาง' ของใบหน้าไม่ได้เป็นส่วนหนึ่งของข้อมูลประจำตัว

สถาปัตยกรรม

ผู้เขียนกล่าวว่าโครงการ CihaNet ได้รับแรงบันดาลใจจากความร่วมมือในปี 2019 ระหว่าง Microsoft Research และมหาวิทยาลัยปักกิ่งที่เรียกว่า เฟซชิฟเตอร์แม้ว่าจะทำให้เกิดการเปลี่ยนแปลงที่โดดเด่นและสำคัญต่อสถาปัตยกรรมหลักของวิธีการที่เก่ากว่า

FaceShifter ใช้ Adaptive Instance Normalization สองรายการ (อดาอิน) เครือข่ายเพื่อจัดการข้อมูลระบุตัวตน ซึ่งข้อมูลจะถูกถ่ายโอนไปยังภาพเป้าหมายผ่านหน้ากากในลักษณะที่คล้ายกับซอฟต์แวร์ deepfake ที่เป็นที่นิยมในปัจจุบัน (และด้วยข้อจำกัดที่เกี่ยวข้องทั้งหมด) โดยใช้เพิ่มเติม ได้ยินสุทธิ (ซึ่งรวมถึงเครือข่ายย่อยที่ได้รับการฝึกฝนแยกต่างหากซึ่งได้รับการฝึกฝนเกี่ยวกับสิ่งกีดขวางการบดเคี้ยว ซึ่งเป็นความซับซ้อนเพิ่มเติมอีกชั้นหนึ่ง)

แต่สถาปัตยกรรมใหม่จะใช้ข้อมูล 'บริบท' นี้โดยตรงสำหรับกระบวนการเปลี่ยนแปลงผ่านการดำเนินการ Cascading Adaptive Instance Normalization (C-AdaIN) สองขั้นตอนเดียว ซึ่งให้ความสอดคล้องของบริบท (เช่น ผิวหน้าและการบดเคี้ยว) ของ ID- พื้นที่ที่เกี่ยวข้อง

เครือข่ายย่อยที่สองที่สำคัญต่อระบบเรียกว่า Swapping Block (SwapBlk) ซึ่งสร้างคุณลักษณะแบบบูรณาการจากบริบทของภาพอ้างอิงและข้อมูล 'ตัวตน' ที่ฝังมาจากภาพต้นฉบับ โดยผ่านขั้นตอนต่างๆ ที่จำเป็นเพื่อให้บรรลุเป้าหมายนี้โดย หมายถึงปัจจุบันธรรมดา

เพื่อช่วยแยกแยะระหว่างบริบทและอัตลักษณ์ ก แผนที่ภาพหลอน ถูกสร้างขึ้นสำหรับแต่ละระดับ ยืนอยู่ในมาสก์การแบ่งส่วนแบบอ่อน และทำหน้าที่ในคุณสมบัติที่หลากหลายยิ่งขึ้นสำหรับส่วนสำคัญของกระบวนการ Deepfake

เมื่อมูลค่าของแผนที่ภาพหลอน (ภาพด้านล่างขวา) เพิ่มขึ้น เส้นทางระหว่างตัวตนที่ชัดเจนยิ่งขึ้นก็ปรากฏขึ้น

เมื่อมูลค่าของแผนที่ภาพหลอน (ภาพด้านล่างขวา) เพิ่มขึ้น เส้นทางระหว่างตัวตนที่ชัดเจนยิ่งขึ้นก็ปรากฏขึ้น

ด้วยวิธีนี้ กระบวนการแลกเปลี่ยนทั้งหมดจะสำเร็จในขั้นตอนเดียวและไม่มีการประมวลผลภายหลัง

ข้อมูลและการทดสอบ

ในการทดลองใช้ระบบ นักวิจัยได้ฝึกแบบจำลองสี่แบบในชุดข้อมูลภาพแบบเปิดที่ได้รับความนิยมสูงและแตกต่างกันสองชุด – CelebA-HQ  และชุดข้อมูล Flickr-Faces-HQ ของ NVIDIA (FFHQ) แต่ละภาพมี 30,000 และ 70,000 ภาพตามลำดับ

ไม่มีการตัดหรือกรองชุดข้อมูลพื้นฐานเหล่านี้ ในแต่ละกรณี นักวิจัยได้ฝึกฝนชุดข้อมูลทั้งหมดบน Tesla GPU เดี่ยวเป็นเวลาสามวัน โดยมีอัตราการเรียนรู้ 0.0002 ในการเพิ่มประสิทธิภาพ Adam

จากนั้นพวกเขาแสดงชุดของการแลกเปลี่ยนแบบสุ่มระหว่างบุคคลหลายพันคนที่ปรากฏในชุดข้อมูล โดยไม่คำนึงว่าใบหน้าจะคล้ายกันหรือไม่แม้แต่เพศที่ตรงกัน และเปรียบเทียบผลลัพธ์ของ CihaNet กับผลลัพธ์จากเฟรมเวิร์ก Deepfake ชั้นนำสี่ตัว: เปลี่ยนหน้า (ซึ่งหมายถึงความนิยมมากขึ้น ดีฟเฟซแล็บเนื่องจากมันแชร์ฐานรหัสรูทในไฟล์ ที่เก็บดั้งเดิม 2017 ที่นำของปลอมมาสู่โลก); FaceShifter ดังกล่าว; เอฟเอสกันและ สลับซิม.

ในการเปรียบเทียบผลผ่านทาง VGG-เฟซ, FFHQ, CelebA-HQ และ FaceForensics ++ผู้เขียนพบว่าโมเดลใหม่ของพวกเขามีประสิทธิภาพเหนือกว่าโมเดลก่อนหน้าทั้งหมด ดังที่ระบุไว้ในตารางด้านล่าง

มาตรวัดที่ใช้ในการประเมินผลลัพธ์ XNUMX ตัว ได้แก่ ความคล้ายคลึงของโครงสร้าง (เอสซิม), ทำให้เกิดข้อผิดพลาดในการประมาณค่า และ ความแม่นยำในการดึง IDซึ่งคำนวณตามเปอร์เซ็นต์ของคู่ที่ดึงข้อมูลสำเร็จ

นักวิจัยยืนยันว่า CihaNet นำเสนอแนวทางที่เหนือกว่าในแง่ของผลลัพธ์เชิงคุณภาพ และความก้าวหน้าอันน่าทึ่งเกี่ยวกับสถานะของศิลปะปัจจุบันในเทคโนโลยี Deepfake โดยขจัดภาระของสถาปัตยกรรมและวิธีการปิดบังที่กว้างขวางและใช้แรงงานมาก และบรรลุประโยชน์มากขึ้น และการแยกตัวตนออกจากบริบทที่สามารถดำเนินการได้

ดูด้านล่างเพื่อดูตัวอย่างวิดีโอเพิ่มเติมของเทคนิคใหม่ คุณสามารถค้นหาวิดีโอความยาวเต็มได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

CihaNet ทำการสลับหน้ากับตัวตนต่างๆ จากเอกสารเสริมสำหรับกระดาษใหม่ ที่มา: https://mitchellx.github.io/#video

 

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai