ปัญญาประดิษฐ์
รุ่งอรุณของอารมณ์ที่ถูก Deepfaked

นักวิจัยได้พัฒนาเทคนิคการเรียนรู้ของเครื่องใหม่ที่สามารถกำหนดอารมณ์ใหม่ๆ บนใบหน้าในวิดีโอได้อย่างไม่จำกัด โดยใช้เทคโนโลยีที่มีอยู่แล้วที่เพิ่งเกิดขึ้นเป็นคำตอบในการจับคู่การเคลื่อนไหวของ губกับการพากย์เสียงภาษาต่างประเทศ
การวิจัยนี้เป็นการร่วมมือระหว่างมหาวิทยาลัย Northeastern ที่บอสตันและ Media Lab ที่ MIT และมีชื่อเรื่องว่า Invertable Frowns: Video-to-Video Facial Emotion Translation แม้ว่านักวิจัยจะยอมรับว่าคุณภาพเริ่มต้นของผลลัพธ์จะต้องได้รับการพัฒนาต่อไป แต่พวกเขาก็อ้างว่าเทคนิคนี้ซึ่งเรียกว่า Wav2Lip-Emotion เป็นเทคนิคแรกที่แก้ไขปัญหาการเปลี่ยนแปลงน้ำเสียงวิดีโอทั้งหมดโดยใช้เทคนิคเครือข่ายประสาท
โค้ดฐานได้รับการเผยแพร่บน GitHub แม้ว่าจุดตรวจสอบแบบจำลองจะถูกเพิ่มเข้าไปใน仓庫แบบเปิดในภายหลัง แต่นักวิจัยก็สัญญาว่าจะทำเช่นนั้น

ทางซ้ายคือเฟรม ‘เสียใจ’ ของวิดีโอที่มา ทางขวาคือเฟรม ‘มีความสุข’ ในตรงกลางคือสองวิธีการสร้างอารมณ์ทางเลือก – แถวบน: ใบหน้าที่มีหน้ากากที่ถูกแทนที่ทั้งหมด โดยที่พื้นผิวน้ำเสียงทั้งหมดถูกแทนที่; แถวล่าง: วิธีการ Wav2Lip แบบดั้งเดิม ซึ่งแทนที่เฉพาะส่วนล่างของใบหน้า Source: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
วิดีโอต้นฉบับเป็นข้อมูลแหล่งเดียว
ในทางทฤษฎี การจัดการดังกล่าวสามารถทำได้โดยใช้การฝึกอบรมแบบเต็มรูปแบบบนคลังเก็บข้อมูล Deepfake แบบดั้งเดิม เช่น DeepFaceLab หรือ FaceSwap อย่างไรก็ตาม การทำงานแบบมาตรฐานจะเกี่ยวข้องกับการใช้เอกลักษณ์ที่แตกต่างจาก ‘เป้าหมาย’ เช่น นักแสดงคนหนึ่งที่เลียนแบบเป้าหมาย ซึ่งอารมณ์ของพวกเขาจะถูกถ่ายโอนไปยังบุคคลอื่นพร้อมกับการแสดงของพวกเขา นอกจากนี้ เทคนิคการโคลนนิ่งเสียง Deepfake มักจำเป็นต้องสมบูรณ์แบบเพื่อให้การหลอกลวงสมบูรณ์แบบ
นอกจากนี้ การเปลี่ยนอารมณ์ของ เป้าหมาย1>เป้าหมาย1 ในวิดีโอต้นฉบับเพียงอย่างเดียวภายใต้โครงสร้างที่ได้รับความนิยมเหล่านี้จะเกี่ยวข้องกับการเปลี่ยนแปลง เวกเตอร์การจัดแนวใบหน้า ในวิธีที่โครงสร้างเหล่านี้ไม่ได้รับการอำนวยความสะดวกในปัจจุบัน

Wav2Lip-Emotion รักษาการสอดคล้องกันของการเคลื่อนไหวของ губของเสียงวิดีโอต้นฉบับในขณะเปลี่ยนอารมณ์ที่เกี่ยวข้อง.
ในทางกลับกัน Wav2Lip-Emotion มุ่งหมายที่จะ ‘คัดลอกและวาง’ อารมณ์ที่เกี่ยวข้องกับการแสดงออกจากส่วนหนึ่งของวิดีโอและแทนที่ในส่วนอื่นๆ โดยมีการจำกัดข้อมูลต้นฉบับด้วยตนเองที่ตั้งใจจะนำเสนอวิธีการที่ต้องใช้ความพยายามน้อยกว่าสำหรับการจัดการน้ำเสียง
แบบจำลองออฟไลน์สามารถพัฒนาได้ในภายหลังซึ่งฝึกอบรมจากวิดีโอทางเลือกของผู้พูด ซึ่งจะขจัดความจำเป็นในการมีวิดีโอใดๆ ที่มี ‘พาเล็ต’ ของสถานะการแสดงออกที่สามารถจัดการวิดีโอได้
วัตถุประสงค์ที่เป็นไปได้
นักวิจัยแนะนำการประยุกต์ใช้การเปลี่ยนแปลงน้ำเสียงหลายอย่าง รวมถึงตัวกรองวิดีโอสดเพื่อชดเชยผลกระทบของ PTSD และผู้ป่วยโรคปลอกประสาทใบหน้า บันทึกวิจัยสังเกตเห็นว่า:
‘บุคคลที่มีหรือไม่มีการแสดงออกที่ถูกยับยั้งอาจได้รับประโยชน์จากการปรับเปลี่ยนการแสดงออกของตนเองให้เหมาะสมกับสถานการณ์ทางสังคมของตน ผู้หนึ่งอาจต้องการเปลี่ยนการแสดงออกในวิดีโอที่แสดงให้พวกเขาเห็น หรือผู้พูดอาจตะคอกกันในระหว่างการประชุมวิดีโอ แต่ก็ยังต้องการรวบรวมเนื้อหาของการแลกเปลี่ยนของพวกเขาโดยไม่มีการแสดงออกที่ไม่พึงประสงค์ หรือผู้กำกับภาพยนตร์อาจต้องการเพิ่มหรือลดการแสดงออกของนักแสดง’
เนื่องจากการแสดงออกทางใบหน้าเป็นตัวบ่งชี้หลักและหลักของความตั้งใจ แม้แต่ในกรณีที่อาจขัดแย้งกับคำพูดที่พูด การเปลี่ยนแปลงการแสดงออกยังให้ความสามารถในการเปลี่ยนแปลงวิธีการรับข้อมูลสื่อสารได้เช่นกัน
งานก่อนหน้า
ความสนใจในการเปลี่ยนแปลงการแสดงออกด้วยการเรียนรู้ของเครื่องย้อนกลับไปในปี 2012 เมื่อการร่วมมือระหว่าง Adobe Facebook และ Rutgers University เสนอวิธีการเปลี่ยนการแสดงออกโดยใช้การสร้างเรขาคณิต 3 มิติแบบ Tensor ซึ่งใช้เวลานานในการวางเมช CGI เหนือเฟรมของวิดีโอที่ต้องการเพื่อสร้างการเปลี่ยนแปลง

การวิจัยของ Adobe/Facebook ในปี 2012 จัดการกับการแสดงออกโดยการนำการเปลี่ยนแปลง CGI แบบดั้งเดิมมาใช้กับวิดีโอ Expressions สามารถเพิ่มหรือลดลงได้ Source: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
แม้ว่าผลลัพธ์จะน่าสนใจ แต่วิธีการนี้ก็ใช้เวลานานและต้องใช้ทรัพยากรจำนวนมาก ในขณะนั้น CGI ก้าวหน้ากว่าการเข้าถึงพื้นที่คุณลักษณะและจัดการพิกเซลโดยใช้การมองเห็นของคอมพิวเตอร์
ที่เกี่ยวข้องมากที่สุดกับเอกสารใหม่คือ MEAD ซึ่งเป็นชุดข้อมูลและการสร้างแบบจำลองการแสดงออกที่เผยแพร่ในปี 2020 ซึ่งสามารถสร้างวิดีโอ ‘หัวพูด’ ได้ แต่ไม่มีความซับซ้อนที่อาจเป็นไปได้ในการเปลี่ยนแปลงวิดีโอที่มีอยู่โดยตรง

การสร้างการแสดงออกด้วย MEAD ในปี 2020 ซึ่งเป็นการร่วมมือระหว่าง SenseTime Research, Carnegie Mellon และสามมหาวิทยาลัยในจีน Source: https://wywu.github.io/projects/MEAD/MEAD.html
ในปี 2018 มีเอกสารอื่นหนึ่งซึ่งเรียกว่า GANimation: Anatomically-aware Facial Animation from a Single Image เป็นผลมาจากการร่วมมือระหว่างนักวิจัยในสหรัฐฯ และสเปน และใช้เครือข่าย Generative Adversarial ในการเพิ่มหรือเปลี่ยนการแสดงออกในภาพนิ่งเท่านั้น

การเปลี่ยนการแสดงออกในภาพนิ่งด้วย GANimation Source: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emotion
ในทางกลับกัน โครงการใหม่นี้มีพื้นฐานมาจาก Wav2Lip ซึ่งได้รับความสนใจในปี 2020 โดยเสนอวิธีการที่อาจเป็นไปได้ในการจับคู่การเคลื่อนไหวของ губกับการพูดหรือการร้องเพลงที่ไม่เคยปรากฏในวิดีโอต้นฉบับ
โครงสร้าง Wav2Lip เดิมได้รับการฝึกอบรมจากคลังข้อมูลของประโยคที่พูดจาก档案ของ BBC เพื่อปรับ Wav2Lip ให้เหมาะสมกับการเปลี่ยนแปลงการแสดงออก นักวิจัยได้ ‘ปรับให้เหมาะสม’ โครงสร้างบนชุดข้อมูล MEAD ที่กล่าวมาข้างต้น
MEAD ประกอบด้วยวิดีโอ 40 ชั่วโมงซึ่งมีนักแสดง 60 คน朗อ่านประโยคเดียวกันในขณะที่แสดงอารมณ์ต่างๆ นักแสดงที่มาจาก 15 ประเทศต่างๆ และนำเสนอคุณลักษณะระหว่างประเทศที่มุ่งช่วยให้โครงการ (และโครงการที่ได้รับอนุญาต) สร้างการแสดงออกที่ใช้ได้และทั่วไป
ในขณะทำการวิจัย MEAD ได้เผยแพร่เฉพาะส่วนแรกของชุดข้อมูลซึ่งมีบุคคล 47 คนแสดงอารมณ์ต่างๆ เช่น ‘โกรธ’, ‘ไม่พอใจ’, ‘กลัว’, ‘轻蔑’, ‘มีความสุข’, ‘เสียใจ’ และ ‘ประหลาดใจ’ ในการเดินทางครั้งแรกของโครงการใหม่นี้ นักวิจัยจำกัดขอบเขตของโครงการให้แคบลง โดยเฉพาะการวางหรือเปลี่ยนอารมณ์ที่รับรู้ได้ง่ายที่สุด เช่น ‘มีความสุข’ และ ‘เสียใจ’
วิธีการและผลลัพธ์
โครงสร้าง Wav2Lip เดิมแทนที่เฉพาะส่วนล่างของใบหน้า ในขณะที่ Wav2Lip-Emotion ทดลองกับหน้ากากการแทนที่ใบหน้าทั้งหมดและสร้างการแสดงออก ดังนั้นจึงจำเป็นต่อนักวิจัยที่จะเปลี่ยนแปลงวิธีการประเมินภายในที่ไม่ได้ออกแบบมาเพื่อการกำหนดค่าใบหน้าทั้งหมด
ส่วนผู้สร้างมีเครื่องมือเข้ารหัสตัวตน เครื่องมือเข้ารหัสเสียง และตัวถอดรหัสใบหน้า ตามงานก่อนหน้า ส่วนเสียงถูกเข้ารหัสเพิ่มเติมเป็นคอนโวลูชัน 2 มิติที่ถูกซ้อนกันและต่อท้ายกับเฟรมที่เกี่ยวข้อง
นอกเหนือจากส่วนผู้สร้างแล้ว โครงสร้างที่เปลี่ยนแปลงนี้ยังมีส่วนแบ่งสามส่วนหลัก ได้แก่ ส่วนแบ่งคุณภาพการจับคู่การเคลื่อนไหวของ губ ส่วนแบ่งวัตถุประสงค์ทางอารมณ์ และส่วนแบ่งวัตถุประสงค์คุณภาพการมองเห็นที่ฝึกอบรมแบบ Adversarial
สำหรับการสร้างใบหน้าทั้งหมด โครงสร้าง Wav2Lip เดิมไม่มีหลักฐานมาก่อน และดังนั้นแบบจำลองจึงถูกฝึกอบรมจากจุดเริ่มต้น สำหรับการฝึกอบรมใบหน้าล่าง (หน้ากากครึ่งหน้า) นักวิจัยเริ่มต้นจากจุดตรวจสอบที่รวมอยู่ในโค้ด Wav2Lip เดิม
นอกเหนือจากการประเมินอัตโนมัติแล้ว นักวิจัยยังใช้ความคิดเห็นของคนกลุ่มที่ให้มาโดยแพลตฟอร์มบริการแบบกึ่งอัตโนมัติ ผู้ทำงานให้คะแนนผลลัพธ์สูงในแง่ของการรับรู้อารมณ์ที่ถูกวาง แต่ให้คะแนน ‘ปานกลาง’ สำหรับคุณภาพของภาพ
นักวิจัยชี้แนะว่า นอกเหนือจากการปรับปรุงคุณภาพวิดีโอที่สร้างขึ้นแล้ว การทำงานในอนาคตของงานนี้อาจครอบคลุมอารมณ์ที่หลากหลายขึ้น และงานนี้สามารถนำไปใช้กับข้อมูลต้นฉบับที่มีฉลากหรืออนุมานอัตโนมัติและชุดข้อมูล ซึ่งนำไปสู่ระบบที่แท้จริงที่อารมณ์สามารถปรับได้ขึ้นหรือลงตามความต้องการของผู้ใช้ หรือสุดท้ายเปลี่ยนเป็นอารมณ์ที่ตรงกันข้ามกับวิดีโอต้นฉบับ












