ปัญญาประดิษฐ์

การตรวจจับวิดีโอแชท Deepfake ผ่านการฉายแสงจากจอแสดงผล

Published July 6, 2022

Updated April 28, 2026

Martin Anderson

การร่วมมือใหม่ระหว่างนักวิจัยจาก National Security Agency (NSA) ของสหรัฐอเมริกาและมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ เสนอวิธีการใหม่ในการตรวจจับเนื้อห Deepfake ในบริบทวิดีโอสด โดยการสังเกตผลกระทบของแสงจากจอแสดงผลต่อลักษณะของผู้ที่อยู่ในอีกด้านหนึ่งของวิดีโอแชท

ผู้ใช้ DeepFaceLive ที่มีชื่อเสียง Druuzil Tech & Games ทดสอบโมเดล Christian Bale DeepFaceLab ของเขาเองในเซสชันสดกับแฟน ๆ ของเขา ในขณะที่แหล่งกำเนิดแสงเปลี่ยนแปลง Source: https://www.youtube.com/watch?v=XPQLDnogLKA

ระบบนี้ทำงานโดยการวางองค์ประกอบกราฟิกบนหน้าจอของผู้ใช้ที่เปลี่ยนช่วงสีแคบๆ ของมันเร็วกว่าที่ระบบ Deepfake ทั่วไปสามารถตอบสนองได้ แม้ว่าจะมีความสามารถในการรักษาการถ่ายโอนสีแบบเรียลไทม์ และคำนึงถึงแสงแวดล้อม

รูปภาพสีเที่ยงธรรมที่แสดงบนจอของผู้ที่อยู่ในอีกด้านหนึ่ง (คือ ผู้ที่อาจเป็นนักต้มตุ๋น Deepfake) จะเปลี่ยนผ่านช่วงสีแคบๆ ที่ออกแบบมาเพื่อไม่กระตุ้นระบบสมดุลสีขาวอัตโนมัติของเว็บแคม และระบบการชดเชยแสงอื่นๆ ที่อาจบ่อนทำลายวิธีการนี้

จากเอกสารวิจัย การเปลี่ยนแปลงสภาพแสงจากจอหน้าผู้ใช้ ซึ่งทำงานเหมือน ‘พื้นที่แสง’ ที่กระจาย Source: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

ทฤษฎีเบื้องหลังแนวทางนี้คือ ระบบ Deepfake สดไม่สามารถตอบสนองต่อการเปลี่ยนแปลงที่แสดงในกราฟิกบนหน้าจอได้ทันเวลา ทำให้เกิด ‘ความล่าช้า’ ของผลกระทบ Deepfake ในบางส่วนของสเปกตรัมสี ซึ่งจะแสดงถึงการมีอยู่ของมัน

เพื่อวัดแสงสะท้อนจากจอแสดงผลอย่างแม่นยำ ระบบต้องคำนึงถึงและลบผลกระทบของแสงแวดล้อมทั่วไปที่ไม่เกี่ยวข้องกับแสงจากจอแสดงผล จากนั้นจึงสามารถแยกความแตกต่างระหว่างการวัดสีของแสงและสีของใบหน้าผู้ใช้ ซึ่งแสดงถึงการเปลี่ยนแปลงเวลา 1-4 เฟรมระหว่างแต่ละครั้ง

โดยการจำกัดช่วงสีของกราฟิก ‘ตัวตรวจจับ’ บนหน้าจอ และการตรวจสอบให้แน่ใจว่าเว็บแคมของผู้ใช้ไม่ได้รับการปรับอัตโนมัติจากเปลี่ยนแปลงของแสงจากจอแสดงผล นักวิจัยสามารถสังเกตเห็น ‘ความล่าช้า’ ของระบบ Deepfake ในการปรับเปลี่ยนแสงได้

เอกสารวิจัยสรุป:

‘เนื่องจากความเชื่อมั่นที่สมเหตุสมผลที่เราให้กับการโทรวิดีโอสด และการแพร่หลายของวิดีโอแชทใน生活ส่วนตัวและอาชีพของเรา เราเสนอแนะว่าเทคนิคในการตรวจสอบวิดีโอ (และเสียง) จะมีความสำคัญมากขึ้น’

การศึกษา นี้ มีชื่อเรื่อง การตรวจจับวิดีโอ Deepfake แบบเรียลไทม์โดยใช้แสงกระตุ้น และมาจาก Candice R. Gerstner นักคณิตศาสตร์ประยุกต์จากกระทรวงกลาโหมสหรัฐ และ Professor Hany Farid จากมหาวิทยาลัยเบิร์กลีย์

การกัดเซาะความเชื่อมั่น

ฉากการวิจัยต่อต้าน Deepfake ได้เปลี่ยนไปอย่างมากในช่วง 6 เดือนที่ผ่านมา จากการตรวจจับ Deepfake ทั่วไป (เช่น การตรวจจับวิดีโอบันทึกและเนื้อหาพอร์น) ไปสู่การตรวจจับ ‘ความเป็นจริง’ ในการตอบสนองต่อการเพิ่มขึ้นของเหตุการณ์การใช้ Deepfake ในการโทรวิดีโอ และการเตือนของ FBI เกี่ยวกับการใช้เทคโนโลยีเหล่านี้ในแอปพลิเคชันสำหรับการทำงานระยะไกล

แม้ว่าการโทรวิดีโอจะไม่ได้ถูก Deepfake แต่โอกาสที่เพิ่มขึ้นสำหรับคนปลอมตัววิดีโอโดยใช้ AI ก็เริ่มสร้างความหวาดกลัว

เอกสารวิจัยใหม่ระบุ:

‘การสร้าง Deepfake แบบเรียลไทม์ [เป็นภัยคุกคามที่ไม่เหมือนใคร] เนื่องจากความเชื่อมั่นทั่วไปที่มีต่อวิดีโอหรือโทรศัพท์สด และความท้าทายในการตรวจจับ Deepfake ในแบบเรียลไทม์ ในขณะที่การโทรกำลังดำเนินอยู่’

ชุมชนการวิจัยได้ตั้งเป้าหมายในการค้นหาสัญญาณที่ไม่สามารถหลีกเลี่ยงได้ของเนื้อห Deepfake ที่ไม่สามารถชดเชยได้ง่ายๆ แม้ว่าสื่อจะอธิบายสิ่งนี้ในแง่ของสงครามเทคโนโลยีระหว่างนักวิจัยด้านความปลอดภัยและนักพัฒนา Deepfake แต่การปฏิเสธแนวทางในตอนแรก (เช่น การวิเคราะห์การกระพริบตา การทำความเข้าใจท่าทางของหัว และการวิเคราะห์พฤติกรรม) เกิดขึ้นเพียงเพราะนักพัฒนาและผู้ใช้พยายามสร้าง Deepfake ที่สมจริงมากขึ้นโดยทั่วไป ไม่ใช่เพื่อตอบสนองต่อ ‘สัญญาณ’ ล่าสุดที่ระบุโดยชุมชนความปลอดภัย

การโยนแสงบน Deepfake วิดีโอสด

การตรวจจับ Deepfake ในสภาพแวดล้อมวิดีโอสดมีภาระในการคำนึงถึงการเชื่อมต่อวิดีโอที่ไม่ดี ซึ่งพบได้ทั่วไปในการโทรวิดีโอ แม้ว่าจะไม่มีระดับ Deepfake 介入 วิดีโอก็อาจมีการเลื่อนล่าช้าแบบ NASA การแสดงผลที่ไม่สมบูรณ์ และการเสื่อมสภาพอื่นๆ ของเสียงและวิดีโอ ซึ่งสามารถซ่อนขอบเขตที่ไม่เรียบร้อยของ Deepfake สดได้ ทั้งในด้านวิดีโอและเสียง

ระบบใหม่ของนักวิจัยได้รับการปรับปรุงจากผลลัพธ์และวิธีการที่นำเสนอใน เอกสารวิจัยปี 2020 จากศูนย์สำหรับการคำนวณเครือข่ายที่มหาวิทยาลัยเทมเพิลในฟิลาเดลเฟีย

จากเอกสารวิจัยปี 2020 เราสามารถสังเกตเห็นการเปลี่ยนแปลงของแสงบนใบหน้าเมื่อเนื้อหาของจอของผู้ใช้เปลี่ยนแปลง Source: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

ความแตกต่างในงานใหม่นี้คือการคำนึงถึงวิธีการที่เว็บแคมตอบสนองต่อการเปลี่ยนแปลงแสง นักวิจัยอธิบาย:

‘เนื่องจากเว็บแคมทั้งหมดทำการปรับแสงอัตโนมัติ การฉายแสงกระตุ้นที่มีความเข้มสูง [ที่ใช้ในงานก่อนหน้า] มีแนวโน้มที่จะกระตุ้นการปรับแสงอัตโนมัติของกล้อง ซึ่งจะส่งผลต่อการบันทึกภาพใบหน้า ดังนั้นเราจึงใช้การฉายแสงกระตุ้นที่มีการเปลี่ยนแปลงสีเที่ยงธรรม’

‘แม้ว่าการเปลี่ยนแปลงสีเที่ยงธรรมจะหลีกเลี่ยงการปรับแสงอัตโนมัติ แต่ก็อาจกระตุ้นการปรับสมดุลสีขาว ซึ่งจะส่งผลต่อการบันทึกภาพใบหน้า ดังนั้นเราจึงดำเนินการในพื้นที่สีที่เราได้พิสูจน์แล้วว่าไม่กระตุ้นการปรับสมดุลสีขาว’

สำหรับโครงการนี้ นักวิจัยยังพิจารณาแนวทางที่คล้ายกัน เช่น LiveScreen ซึ่งบังคับให้เกิดรูปแบบแสงไม่เห็นได้บนจอของผู้ใช้เพื่อเปิดเผยเนื้อห Deepfake

แม้ว่าระบบนั้นจะได้ผลลัพธ์ความแม่นยำ 94.8% นักวิจัยสรุปว่าการซ่อนรูปแบบแสงเหล่านี้จะทำให้การนำไปใช้ในสภาพแวดล้อมที่มีแสงสว่างมากยาก และแทนที่จะเสนอระบบของตนเองหรือระบบที่คล้ายกันซึ่งสามารถรวมเข้ากับซอฟต์แวร์วิดีโอแชทได้โดยตรง:

‘การแทรกแซงของเราสามารถเกิดขึ้นได้โดยผู้เข้าร่วมการโทรที่แบ่งปันจอแสดงผลและแสดงรูปแบบที่เปลี่ยนแปลงตามเวลา หรือในอุดมคติแล้ว สามารถรวมเข้ากับซอฟต์แวร์วิดีโอแชทได้โดยตรง’

การทดสอบ

นักวิจัยใช้การผสมผสานระหว่างวัตถุจำลองและวัตถุจริงเพื่อทดสอบตัวตรวจจับ Deepfake ที่ขับเคลื่อนด้วย Dlib ของพวกเขา สำหรับสถานการณ์จำลอง พวกเขาใช้ Mitsuba ซึ่งเป็นตัวให้แสงและตัวให้แสงย้อนกลับจากสถาบันเทคโนโลยีแห่งสหพันธรัฐสวิสแห่งโลซาน

ตัวอย่างจากชุดข้อมูลจำลอง ซึ่งแสดงถึงการเปลี่ยนแปลงสีของใบหน้า สีของแสง แหล่งกำเนิดแสง และระยะห่างจากกล้อง

ตัวอย่างจากการทดสอบสภาพแวดล้อมจำลอง ซึ่งแสดงถึงการเปลี่ยนแปลงสีของใบหน้า สีของแสง แหล่งกำเนิดแสง และระยะห่างจากกล้อง

ฉากที่แสดงมีหัว CGI ที่ถูกจับภาพจากกล้องเสมือนที่มีมุมมอง 90 องศา หัวเหล่านี้มีการสะท้อนแสง แบบแลมเบอร์เทียน และสีของใบหน้าที่เป็นกลาง และถูกวางไว้ 2 ฟุตหน้ากล้องเสมือน

เพื่อทดสอบเฟรมเวิร์กนี้ในหลายๆ สถานการณ์ที่เป็นไปได้ นักวิจัยได้ดำเนินการทดสอบหลายครั้ง โดยเปลี่ยนหลายๆ ด้านพร้อมๆ กัน ด้านที่เปลี่ยน ได้แก่ สีของใบหน้า ระยะห่าง และขนาดของแหล่งกำเนิดแสง

นักวิจัยอธิบาย:

‘ในการจำลอง โดยที่สมมติฐานของเราถูกต้อง เทคนิคที่เราเสนอเป็นไปได้อย่างมากต่อการกำหนดค่าภาพที่หลากหลาย’

สำหรับสถานการณ์จริง นักวิจัยใช้ผู้เข้าร่วม 15 คน โดยมีสีของใบหน้าที่หลากหลาย ในสภาพแวดล้อมที่แตกต่างกัน แต่ละคนได้รับการทดสอบสองครั้ง โดยใช้การเปลี่ยนแปลงสีแบบจำกัดภายใต้สภาพที่อัตราการรีเฟรชของจอแสดงผล 30Hz ถูกสynchronizes กับเว็บแคม ซึ่งหมายความว่าการฉายแสงกระตุ้นจะคงอยู่เพียงหนึ่งวินาทีเท่านั้น ผลลัพธ์โดยทั่วไปสอดคล้องกับการทดสอบแบบจำลอง แม้ว่าความสัมพันธ์จะเพิ่มขึ้นอย่างมีนัยสำคัญเมื่อความเข้มของแสงเพิ่มขึ้น

ทิศทางในอนาคต

ระบบนี้ไม่คำนึงถึงการบดบังใบหน้าทั่วไป เช่น ผมหน้า ผมยาว หรือหนวด แต่นักวิจัยชี้ว่าการบดบังเหล่านี้สามารถเพิ่มเข้าไปในระบบในอนาคต (ผ่านการทำเครื่องหมายและการแบ่งส่วนเชิงความหมาย) ซึ่งสามารถฝึกให้ใช้ค่าจากพื้นที่ผิวหนังที่รับรู้ได้ของวัตถุเป้าหมาย

นักวิจัยยังแนะนำว่าแบบอย่างที่คล้ายกันสามารถใช้ในการตรวจจับเสียง Deepfake และเสียงที่จำเป็นในการตรวจจับสามารถเล่นในความถี่ที่อยู่นอกช่วงการได้ยินของมนุษย์ปกติ

นักวิจัยยังชี้ว่าการขยายพื้นที่การประเมินไปไกลกว่าใบหน้าในเฟรมเวิร์กที่มีความสมบูรณ์มากขึ้นสามารถปรับปรุงโอกาสในการตรวจจับ Deepfake ได้อย่างมาก:

‘การประมาณค่าแสง 3 มิติ ที่ซับซ้อนกว่านี้ จะให้แบบจำลองการปรากฏที่มีความสมบูรณ์มากขึ้น ซึ่งจะยากสำหรับผู้ปลอมตัวที่จะหลีกเลี่ยงได้ ในขณะที่เราเน้นไปที่ใบหน้าเท่านั้น จอแสดงผลยังฉายแสงไปยังคอ ส่วนบนของร่างกาย และพื้นหลัง ซึ่งสามารถวัดได้เช่นกัน ‘

‘การวัดเพิ่มเติมเหล่านี้จะบังคับให้ผู้ปลอมตัวต้องคำนึงถึงฉาก 3 มิติทั้งหมด ไม่ใช่แค่ใบหน้าเท่านั้น’