ปัญญาประดิษฐ์
วิธีการ Deepfake แบบใหม่และเรียบง่ายกว่าซึ่งมีประสิทธิภาพเหนือกว่าแนวทางก่อนหน้า
ความร่วมมือระหว่างกลุ่มวิจัย AI ของจีนและนักวิจัยในสหรัฐฯ ได้พัฒนาสิ่งที่อาจเป็นนวัตกรรมที่แท้จริงครั้งแรกในเทคโนโลยี Deepfakes นับตั้งแต่ปรากฏการณ์ดังกล่าวเกิดขึ้นเมื่อสี่ปีที่แล้ว
วิธีการใหม่นี้สามารถทำการแลกเปลี่ยนใบหน้าที่มีประสิทธิภาพสูงกว่าเฟรมเวิร์กอื่น ๆ ที่มีอยู่ทั้งหมดในการทดสอบการรับรู้แบบมาตรฐาน โดยไม่จำเป็นต้องรวบรวมและดูแลชุดข้อมูลเฉพาะขนาดใหญ่อย่างละเอียดถี่ถ้วน และฝึกฝนชุดข้อมูลดังกล่าวเป็นเวลาถึงหนึ่งสัปดาห์สำหรับข้อมูลประจำตัวเพียงรายการเดียว สำหรับตัวอย่างที่นำเสนอในรายงานฉบับใหม่ แบบจำลองได้รับการฝึกอบรมเกี่ยวกับ ทั้งหมด จากชุดข้อมูลคนดังยอดนิยมสองชุดบน NVIDIA Tesla P40 GPU หนึ่งชุดเป็นเวลาประมาณสามวัน
วิธีการใหม่นี้ช่วยขจัดความจำเป็นในการ "วาง" ตัวตนที่ปลูกถ่ายอย่างหยาบๆ ลงในวิดีโอเป้าหมาย ซึ่งมักนำไปสู่การบอกเล่า สิ่งประดิษฐ์ ที่ปรากฏขึ้นเมื่อใบหน้าปลอมสิ้นสุดลงและใบหน้าที่แท้จริงที่อยู่เบื้องหลังเริ่มต้นขึ้น แทนที่จะใช้ 'แผนที่ภาพหลอน' เพื่อทำการผสมผสานแง่มุมที่มองเห็นได้ลึกขึ้น เนื่องจากระบบแยกตัวตนออกจากบริบทได้อย่างมีประสิทธิภาพมากกว่าวิธีการปัจจุบัน ดังนั้นจึงสามารถผสมผสานตัวตนเป้าหมายในระดับที่ลึกซึ้งยิ่งขึ้น
แผนที่ภาพหลอนใหม่ให้บริบทที่สมบูรณ์ยิ่งขึ้นสำหรับการแลกเปลี่ยน ซึ่งตรงข้ามกับหน้ากากแบบแข็งที่มักต้องการการดูแลจัดการที่กว้างขวาง (และในกรณีของ DeepFaceLab การฝึกอบรมแยกต่างหาก) ในขณะที่ให้ความยืดหยุ่นที่จำกัดในแง่ของการรวมตัวตนที่แท้จริงของทั้งสองเข้าด้วยกัน
พื้นที่ กระดาษ, ชื่อ บริบทขั้นตอนเดียวและเครือข่ายภาพหลอนประจำตัวจัดทำขึ้นโดยนักวิจัยในสังกัดของ JD AI Research และมหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ และได้รับการสนับสนุนจาก National Key R&D Program of China ภายใต้ Grant No. 2020AAA0103800 ได้รับการแนะนำในการประชุม ACM International Conference on Multimedia ครั้งที่ 29 เมื่อวันที่ 20-24 ตุลาคม ณ เมืองเฉิงตู ประเทศจีน
ไม่จำเป็นต้องใช้ Parity 'Face-On'
ทั้งซอฟต์แวร์ DeepFake ที่ได้รับความนิยมสูงสุดในปัจจุบันอย่าง DeepFaceLab และ FaceSwap ทางแยกที่แข่งขันกัน ดำเนินการเวิร์กโฟลว์ที่คดเคี้ยวและควบคุมด้วยมือบ่อยๆ เพื่อระบุว่าใบหน้าเอียงไปทางไหน อุปสรรคใดบ้างที่ขวางทางซึ่งต้องจัดการ (อีกครั้ง ด้วยตนเอง) และต้องรับมือกับสิ่งกีดขวางที่น่ารำคาญอื่นๆ อีกมากมาย (รวมถึงแสง) ที่ทำให้การใช้งานห่างไกลจากประสบการณ์ 'ชี้แล้วคลิก' ที่แสดงออกมาอย่างไม่ถูกต้องในสื่อ นับตั้งแต่การถือกำเนิดของ Deepfakes
ในทางตรงกันข้าม CihaNet ไม่ต้องการให้ภาพสองภาพหันเข้าหากล้องโดยตรงเพื่อดึงและใช้ประโยชน์จากข้อมูลระบุตัวตนที่เป็นประโยชน์จากภาพเดียว
สถาปัตยกรรม
ผู้เขียนกล่าวว่าโครงการ CihaNet ได้รับแรงบันดาลใจจากความร่วมมือในปี 2019 ระหว่าง Microsoft Research และมหาวิทยาลัยปักกิ่งที่เรียกว่า เฟซชิฟเตอร์แม้ว่าจะทำให้เกิดการเปลี่ยนแปลงที่โดดเด่นและสำคัญต่อสถาปัตยกรรมหลักของวิธีการที่เก่ากว่า
FaceShifter ใช้ Adaptive Instance Normalization สองรายการ (อดาอิน) เครือข่ายเพื่อจัดการข้อมูลระบุตัวตน ซึ่งข้อมูลจะถูกถ่ายโอนไปยังภาพเป้าหมายผ่านหน้ากากในลักษณะที่คล้ายกับซอฟต์แวร์ deepfake ที่เป็นที่นิยมในปัจจุบัน (และด้วยข้อจำกัดที่เกี่ยวข้องทั้งหมด) โดยใช้เพิ่มเติม ได้ยินสุทธิ (ซึ่งรวมถึงเครือข่ายย่อยที่ได้รับการฝึกฝนแยกต่างหากซึ่งได้รับการฝึกฝนเกี่ยวกับสิ่งกีดขวางการบดเคี้ยว ซึ่งเป็นความซับซ้อนเพิ่มเติมอีกชั้นหนึ่ง)
แต่สถาปัตยกรรมใหม่จะใช้ข้อมูล 'บริบท' นี้โดยตรงสำหรับกระบวนการเปลี่ยนแปลงผ่านการดำเนินการ Cascading Adaptive Instance Normalization (C-AdaIN) สองขั้นตอนเดียว ซึ่งให้ความสอดคล้องของบริบท (เช่น ผิวหน้าและการบดเคี้ยว) ของ ID- พื้นที่ที่เกี่ยวข้อง
เครือข่ายย่อยที่สองที่สำคัญต่อระบบเรียกว่า Swapping Block (SwapBlk) ซึ่งสร้างคุณลักษณะแบบบูรณาการจากบริบทของภาพอ้างอิงและข้อมูล 'ตัวตน' ที่ฝังมาจากภาพต้นฉบับ โดยผ่านขั้นตอนต่างๆ ที่จำเป็นเพื่อให้บรรลุเป้าหมายนี้โดย หมายถึงปัจจุบันธรรมดา
เพื่อช่วยแยกแยะระหว่างบริบทและอัตลักษณ์ ก แผนที่ภาพหลอน ถูกสร้างขึ้นสำหรับแต่ละระดับ ยืนอยู่ในมาสก์การแบ่งส่วนแบบอ่อน และทำหน้าที่ในคุณสมบัติที่หลากหลายยิ่งขึ้นสำหรับส่วนสำคัญของกระบวนการ Deepfake
ด้วยวิธีนี้ กระบวนการแลกเปลี่ยนทั้งหมดจะสำเร็จในขั้นตอนเดียวและไม่มีการประมวลผลภายหลัง
ข้อมูลและการทดสอบ
ในการทดลองใช้ระบบ นักวิจัยได้ฝึกแบบจำลองสี่แบบในชุดข้อมูลภาพแบบเปิดที่ได้รับความนิยมสูงและแตกต่างกันสองชุด – CelebA-HQ และชุดข้อมูล Flickr-Faces-HQ ของ NVIDIA (FFHQ) แต่ละภาพมี 30,000 และ 70,000 ภาพตามลำดับ
ไม่มีการตัดหรือกรองชุดข้อมูลพื้นฐานเหล่านี้ ในแต่ละกรณี นักวิจัยได้ฝึกฝนชุดข้อมูลทั้งหมดบน Tesla GPU เดี่ยวเป็นเวลาสามวัน โดยมีอัตราการเรียนรู้ 0.0002 ในการเพิ่มประสิทธิภาพ Adam
จากนั้นพวกเขาแสดงชุดของการแลกเปลี่ยนแบบสุ่มระหว่างบุคคลหลายพันคนที่ปรากฏในชุดข้อมูล โดยไม่คำนึงว่าใบหน้าจะคล้ายกันหรือไม่แม้แต่เพศที่ตรงกัน และเปรียบเทียบผลลัพธ์ของ CihaNet กับผลลัพธ์จากเฟรมเวิร์ก Deepfake ชั้นนำสี่ตัว: เปลี่ยนหน้า (ซึ่งหมายถึงความนิยมมากขึ้น ดีฟเฟซแล็บเนื่องจากมันแชร์ฐานรหัสรูทในไฟล์ ที่เก็บดั้งเดิม 2017 ที่นำของปลอมมาสู่โลก); FaceShifter ดังกล่าว; เอฟเอสกันและ สลับซิม.
ในการเปรียบเทียบผลผ่านทาง VGG-เฟซ, FFHQ, CelebA-HQ และ FaceForensics ++ผู้เขียนพบว่าโมเดลใหม่ของพวกเขามีประสิทธิภาพเหนือกว่าโมเดลก่อนหน้าทั้งหมด ดังที่ระบุไว้ในตารางด้านล่าง
มาตรวัดที่ใช้ในการประเมินผลลัพธ์ XNUMX ตัว ได้แก่ ความคล้ายคลึงของโครงสร้าง (เอสซิม), ทำให้เกิดข้อผิดพลาดในการประมาณค่า และ ความแม่นยำในการดึง IDซึ่งคำนวณตามเปอร์เซ็นต์ของคู่ที่ดึงข้อมูลสำเร็จ
นักวิจัยยืนยันว่า CihaNet นำเสนอแนวทางที่เหนือกว่าในแง่ของผลลัพธ์เชิงคุณภาพ และความก้าวหน้าอันน่าทึ่งเกี่ยวกับสถานะของศิลปะปัจจุบันในเทคโนโลยี Deepfake โดยขจัดภาระของสถาปัตยกรรมและวิธีการปิดบังที่กว้างขวางและใช้แรงงานมาก และบรรลุประโยชน์มากขึ้น และการแยกตัวตนออกจากบริบทที่สามารถดำเนินการได้
ดูด้านล่างเพื่อดูตัวอย่างวิดีโอเพิ่มเติมของเทคนิคใหม่ คุณสามารถค้นหาวิดีโอความยาวเต็มได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.
CihaNet ทำการสลับหน้ากับตัวตนต่างๆ จากเอกสารเสริมสำหรับกระดาษใหม่ ที่มา: https://mitchellx.github.io/#video