ปัญญาประดิษฐ์
Deepfakes สามารถหลอกลวง API 'ความสด' ที่สำคัญของใบหน้าจำนวนมากได้อย่างมีประสิทธิภาพ
ความร่วมมือด้านการวิจัยครั้งใหม่ระหว่างสหรัฐอเมริกาและจีนได้ตรวจสอบความอ่อนแอต่อ Deepfake ของระบบตรวจสอบความถูกต้องด้วยใบหน้าที่ใหญ่ที่สุดในโลก และพบว่าส่วนใหญ่มีความเสี่ยงต่อการโจมตี Deepfake ในรูปแบบที่กำลังพัฒนาและอุบัติใหม่
การวิจัยดำเนินการบุกรุกโดยใช้ Deepfake โดยใช้เฟรมเวิร์กแบบกำหนดเองที่ปรับใช้กับระบบ Facial Liveness Verification (FLV) ที่ผู้ให้บริการรายใหญ่จัดหาให้โดยทั่วไป และขายเป็นบริการแก่ลูกค้าปลายน้ำ เช่น สายการบินและบริษัทประกันภัย
ความสดของใบหน้ามีวัตถุประสงค์เพื่อขับไล่การใช้เทคนิคต่างๆ เช่น การโจมตีด้วยรูปภาพของฝ่ายตรงข้ามการใช้งานของ มาสก์ และวิดีโอที่บันทึกไว้ล่วงหน้าที่เรียกว่า 'ใบหน้าต้นแบบ'และรูปแบบอื่น ๆ ของ การโคลนรหัสภาพ.
การศึกษาสรุปได้ว่าโมดูลการตรวจจับ Deepfake ในระบบเหล่านี้มีจำนวนจำกัด ซึ่งหลายโมดูลให้บริการลูกค้านับล้าน ยังห่างไกลจากความผิดพลาด และอาจได้รับการกำหนดค่าโดยใช้เทคนิค Deepfake ที่ล้าสมัยไปแล้ว หรืออาจมีความเฉพาะทางสถาปัตยกรรมมากเกินไป .
ผู้เขียนทราบ:
'วิธีการของ deepfake [ที่แตกต่างกัน] ยังแสดงรูปแบบต่างๆ ของผู้จำหน่ายต่างๆ กัน... หากไม่สามารถเข้าถึงรายละเอียดทางเทคนิคของผู้จำหน่าย FLV เป้าหมาย เราคาดการณ์ว่ารูปแบบดังกล่าวมีสาเหตุมาจากมาตรการป้องกันที่ปรับใช้โดยผู้จำหน่ายต่างๆ ตัวอย่างเช่น ผู้ให้บริการบางรายอาจใช้การป้องกันการโจมตี Deepfake ที่เฉพาะเจาะจง'
และดำเนินการต่อ:
'[ส่วนใหญ่] FLV API ไม่ใช้การตรวจจับ anti-deepfake แม้แต่ผู้ที่มีการป้องกันดังกล่าว ประสิทธิภาพของมันก็น่าเป็นห่วง (เช่น อาจตรวจจับวิดีโอสังเคราะห์คุณภาพสูงแต่ตรวจไม่พบวิดีโอคุณภาพต่ำ)'
นักวิจัยสังเกตในเรื่องนี้ว่า 'ความถูกต้อง' นั้นสัมพันธ์กัน:
'[แม้] หากวิดีโอที่สังเคราะห์ขึ้นนั้นไม่จริงสำหรับมนุษย์ มันยังสามารถข้ามกลไกการตรวจจับต่อต้าน Deepfake ในปัจจุบันได้ด้วยอัตราความสำเร็จที่สูงมาก'
การค้นพบอีกประการหนึ่งคือการกำหนดค่าของระบบการตรวจสอบใบหน้าทั่วไปในปัจจุบันมีอคติต่อผู้ชายผิวขาว ต่อจากนั้นพบว่าตัวตนของผู้หญิงและไม่ใช่คนผิวขาวมีประสิทธิภาพมากกว่าในการข้ามระบบการตรวจสอบ ทำให้ลูกค้าในประเภทเหล่านั้นมีความเสี่ยงสูงที่จะถูกละเมิดด้วยเทคนิคที่ใช้ Deepfake
กระดาษสังเกตว่า 'มีอคติใน [Facial Liveness Verification] ซึ่งอาจนำความเสี่ยงด้านความปลอดภัยที่สำคัญมาสู่คนบางกลุ่ม'
ผู้เขียนยังได้ดำเนินการโจมตีการตรวจสอบความถูกต้องด้วยใบหน้าอย่างมีจริยธรรมต่อรัฐบาลจีน สายการบินรายใหญ่ของจีน หนึ่งในบริษัทประกันชีวิตที่ใหญ่ที่สุดในจีน และ R360ซึ่งเป็นหนึ่งในกลุ่มการลงทุนระดับยูนิคอร์นที่ใหญ่ที่สุดในโลก และรายงานความสำเร็จในการเลี่ยงการใช้ API ที่ศึกษาขั้นปลายขององค์กรเหล่านี้
ในกรณีที่การบายพาสการยืนยันตัวตนสำเร็จสำหรับสายการบินจีน API ดาวน์สตรีมกำหนดให้ผู้ใช้ต้อง 'ส่ายหน้า' เพื่อเป็นหลักฐานในการต่อต้านเนื้อหาปลอมที่ลึกล้ำ แต่สิ่งนี้พิสูจน์แล้วว่าไม่ได้ผลกับเฟรมเวิร์กที่ออกแบบโดยนักวิจัยซึ่งประกอบด้วยหก สถาปัตยกรรมที่ลึกล้ำ
กระดาษบันทึกว่าผู้เขียนได้ติดต่อผู้ขายที่เกี่ยวข้องซึ่งมีรายงานว่ายอมรับงานนี้
ผู้เขียนเสนอคำแนะนำมากมายสำหรับการปรับปรุงสถานะปัจจุบันของศิลปะใน FLV รวมถึงการละทิ้งการรับรองความถูกต้องด้วยภาพเดียว ('FLV ตามภาพ') โดยที่การรับรองความถูกต้องจะขึ้นอยู่กับเฟรมเดียวจากฟีดกล้องของลูกค้า การอัปเดตระบบการตรวจจับ Deepfake ที่ยืดหยุ่นและครอบคลุมมากขึ้นทั่วทั้งโดเมนภาพและเสียง กำหนดความต้องการให้การรับรองความถูกต้องด้วยเสียงในวิดีโอของผู้ใช้ต้องซิงโครไนซ์กับการเคลื่อนไหวของริมฝีปาก (ซึ่งโดยทั่วไปแล้วไม่ใช่ตอนนี้) และต้องการให้ผู้ใช้ทำท่าทางและการเคลื่อนไหวซึ่งปัจจุบันระบบ Deepfake ยากที่จะทำซ้ำ (เช่น มุมมองโปรไฟล์ และการทำให้ใบหน้ามัวหมองบางส่วน)
พื้นที่ กระดาษ มีบรรดาศักดิ์ เห็นคือชีวิต? คิดใหม่เกี่ยวกับความปลอดภัยของการตรวจสอบความมีชีวิตของใบหน้าในยุค Deepfakeและมาจากผู้เขียนนำร่วมกัน Changjiang Li และ Li Wang และผู้เขียนอีกห้าคนจาก Pennsylvania State University, Zhejiang University และ Shandong University
เป้าหมายหลัก
นักวิจัยกำหนดเป้าหมายผู้ให้บริการระบบตรวจสอบความสดบนใบหน้า (FLV) ที่ 'เป็นตัวแทนมากที่สุด XNUMX แห่ง' ซึ่งไม่ระบุชื่อด้วยรหัสลับในการวิจัย
ตัวแทนผู้ขายมีดังนี้: 'บีดี' และ 'ทีซี' เป็นตัวแทนของซัพพลายเออร์กลุ่มบริษัทที่มีการเรียก API ที่เกี่ยวข้องกับใบหน้าจำนวนมากที่สุด และส่วนแบ่งที่ใหญ่ที่สุดในบริการคลาวด์ AI ของจีน 'ฮว' เป็น 'หนึ่งในผู้จำหน่ายที่มีตลาดคลาวด์สาธารณะ [จีน] ที่ใหญ่ที่สุด'; 'CW' มีอัตราการเติบโตเร็วที่สุดในด้านคอมพิวเตอร์วิทัศน์ และกำลังบรรลุตำแหน่งผู้นำทางการตลาด'; 'เซนต์' เป็นหนึ่งในผู้จำหน่ายคอมพิวเตอร์วิทัศน์รายใหญ่ที่สุด และ 'ไอเอฟที' เป็นผู้จำหน่ายซอฟต์แวร์ AI รายใหญ่ที่สุดในประเทศจีน
ข้อมูลและสถาปัตยกรรม
ข้อมูลพื้นฐานที่ขับเคลื่อนโครงการประกอบด้วยชุดข้อมูล 625,537 ภาพจากการริเริ่มของจีน CelebA-สปอยล์ร่วมกับวิดีโอสดจาก Michigan State University's 2019 สิว-ม ชุดข้อมูล
การทดลองทั้งหมดดำเนินการบนเซิร์ฟเวอร์ที่มีซีพียู Intel Xeon E2.40-5 v2640 ความเร็ว 4GHz สองตัวที่ทำงานบน RAM ขนาด 256 GB พร้อม HDD ขนาด 4TB และ GPU NVIDIA 1080Ti จำนวนสี่ตัว รวมเป็น 44GB ของ VRAM ที่ใช้งานได้
หกในหนึ่งเดียว
กรอบคิดโดยผู้เขียนบทความเรียกว่า ไลฟ์บักเกอร์และรวมเอาเฟรมเวิร์ก deepfake ที่ล้ำหน้าหกเฟรมเทียบกับการป้องกันหลักสี่ตัวในระบบ FLV
เฟรมเวิร์ก Deepfake หกตัวที่ใช้คือ: 2018 ของมหาวิทยาลัยอ็อกซ์ฟอร์ด เอ็กซ์ทูเฟซ; ความร่วมมือทางวิชาการของสหรัฐฯ ไอซีเฟซ; โครงการอิสราเอลปี 2019 สองรูปแบบ เอฟเอสกัน; ชาวอิตาลี แบบจำลองวิธีการสั่งซื้อครั้งแรก (ฟอม) ตั้งแต่ต้นปี 2020; และการทำงานร่วมกันของ Microsoft Research ของมหาวิทยาลัยปักกิ่ง เฟซชิฟเตอร์ (แม้ว่า FaceShifter ไม่ใช่โอเพ่นซอร์ส ผู้เขียนจึงต้องสร้างใหม่ตามรายละเอียดสถาปัตยกรรมที่เผยแพร่)
วิธีการที่ใช้ในเฟรมเวิร์กเหล่านี้รวมถึงการใช้วิดีโอที่แสดงผลล่วงหน้าซึ่งอาสาสมัครของวิดีโอปลอมทำการกระทำซ้ำๆ ที่แยกออกมาจากข้อกำหนดการตรวจสอบความถูกต้องของ API ในโมดูลการประเมินก่อนหน้าของ LiveBugger และการใช้ 'หุ่นเชิด Deepfake' ที่มีประสิทธิภาพ ' ซึ่งแปลการเคลื่อนไหวแบบสดของแต่ละบุคคลเป็นสตรีมที่มีการปลอมแปลงซึ่งถูกแทรกลงในสตรีมเว็บแคมที่เลือกใช้ร่วมกัน
ตัวอย่างหลังคือ DeepFaceLiveซึ่ง เปิดตัวเมื่อฤดูร้อนปีที่แล้ว เป็นโปรแกรมเสริมที่ได้รับความนิยม ดีฟเฟซแล็บเพื่อเปิดใช้งานการสตรีม Deepfake แบบเรียลไทม์ ซึ่งไม่รวมอยู่ในการวิจัยของผู้เขียน
โจมตีสี่เวกเตอร์
เวกเตอร์การโจมตีสี่ตัวภายในระบบ FLV ทั่วไปคือ: FLV ที่ใช้รูปภาพซึ่งใช้รูปถ่ายที่ผู้ใช้ให้ไว้เป็นโทเค็นการตรวจสอบกับ ID ใบหน้าที่บันทึกไว้ในระบบ FLV ที่ใช้ความเงียบซึ่งกำหนดให้ผู้ใช้อัปโหลดคลิปวิดีโอของตนเอง FLV ตามการกระทำซึ่งต้องการให้ผู้ใช้ดำเนินการตามคำสั่งของแพลตฟอร์ม และ FLV ที่ใช้เสียงซึ่งจับคู่คำพูดของผู้ใช้กับรายการฐานข้อมูลของระบบสำหรับรูปแบบคำพูดของผู้ใช้นั้น
ความท้าทายประการแรกสำหรับระบบคือการกำหนดขอบเขตที่ API จะเปิดเผยข้อกำหนดของตน เนื่องจากสามารถคาดการณ์และรองรับได้ในกระบวนการ Deepfaking สิ่งนี้จัดการโดย Intelligence Engine ใน LiveBugger ซึ่งรวบรวมข้อมูลเกี่ยวกับข้อกำหนดจากเอกสาร API ที่เปิดเผยต่อสาธารณะและแหล่งข้อมูลอื่นๆ
เนื่องจากข้อกำหนดที่เผยแพร่อาจหายไป (ด้วยเหตุผลหลายประการ) จากรูทีนจริงของ API ดังนั้น Intelligence Engine จึงรวมโพรบที่รวบรวมข้อมูลโดยนัยตามผลลัพธ์ของการเรียก API สำรวจ ในโครงการวิจัย สิ่งนี้ได้รับการอำนวยความสะดวกโดย API 'ทดสอบ' แบบออฟไลน์อย่างเป็นทางการที่จัดทำขึ้นเพื่อประโยชน์ของนักพัฒนา และโดยอาสาสมัครที่เสนอให้ใช้บัญชีจริงของตนเองในการทดสอบ
Intelligence Engine ค้นหาหลักฐานว่า API กำลังใช้วิธีการเฉพาะที่อาจเป็นประโยชน์ในการโจมตีหรือไม่ คุณสมบัติประเภทนี้อาจรวมถึง การตรวจจับการเชื่อมโยงกันซึ่งจะตรวจสอบว่าเฟรมในวิดีโอมีความต่อเนื่องชั่วคราวหรือไม่ ซึ่งเป็นข้อกำหนดที่สามารถกำหนดได้โดยการส่งเฟรมวิดีโอที่มีสัญญาณรบกวนและสังเกตว่าสิ่งนี้ก่อให้เกิดความล้มเหลวในการตรวจสอบสิทธิ์หรือไม่
โมดูลยังค้นหา การตรวจจับภาษาริมฝีปากโดยที่ API อาจตรวจสอบว่ามีเสียงในวิดีโอหรือไม่ ประสานกับการเคลื่อนไหวของริมฝีปากของผู้ใช้ (ไม่ค่อยเกิดขึ้น – ดู 'ผลลัพธ์' ด้านล่าง)
ผลสอบ
ผู้เขียนพบว่า API ที่ได้รับการประเมินทั้ง XNUMX รายการไม่ได้ใช้การตรวจจับการเชื่อมโยงกันในขณะทำการทดลอง ทำให้เครื่องมือ Deepfaker ใน LiveBugger สามารถต่อเสียงที่สังเคราะห์ขึ้นกับวิดีโอ DeepFaked เข้าด้วยกัน โดยอ้างอิงจากเนื้อหาที่อาสาสมัครส่งมาให้
อย่างไรก็ตาม พบว่าแอปพลิเคชันดาวน์สตรีมบางตัว (เช่น ลูกค้าของเฟรมเวิร์ก API) ได้เพิ่มการตรวจจับการเชื่อมโยงกันให้กับกระบวนการ ทำให้ต้องมีการบันทึกวิดีโอล่วงหน้าที่ปรับแต่งเพื่อหลีกเลี่ยงสิ่งนี้
นอกจากนี้ ผู้จำหน่าย API เพียงไม่กี่รายเท่านั้นที่ใช้การตรวจจับภาษาปาก วิดีโอและเสียงส่วนใหญ่จะวิเคราะห์เป็นปริมาณแยกกัน และไม่มีฟังก์ชันใดที่พยายามจับคู่การขยับริมฝีปากกับเสียงที่ให้มา
สรุป
ผลลัพธ์ของเอกสารและข้อบ่งชี้สำหรับอนาคตของ FLV APIs นั้นซับซ้อน และผู้เขียนได้เชื่อมโยงสิ่งเหล่านี้เข้ากับ 'สถาปัตยกรรมของช่องโหว่' ที่สามารถช่วยให้นักพัฒนาซอฟต์แวร์ FLV เข้าใจปัญหาบางอย่างที่เปิดเผยได้ดีขึ้น”
หมายเหตุคำแนะนำ:
'ความเสี่ยงด้านความปลอดภัยของ FLV มีอยู่อย่างกว้างขวางในแอปพลิเคชันในโลกแห่งความเป็นจริง และด้วยเหตุนี้จึงคุกคามความปลอดภัยของผู้ใช้ปลายทางหลายล้านคน'
ผู้เขียนยังสังเกตเห็นว่าการใช้ FLV ตามการกระทำนั้น 'ส่วนน้อย' และการเพิ่มจำนวนของการกระทำที่ผู้ใช้จำเป็นต้องดำเนินการ 'ไม่สามารถนำมาซึ่งผลประโยชน์ด้านความปลอดภัย'
นอกจากนี้ ผู้เขียนทราบว่าการรวมการจดจำเสียงและการจดจำใบหน้าชั่วขณะ (ในวิดีโอ) เป็นการป้องกันที่ไร้ผล เว้นแต่ผู้ให้บริการ API จะเริ่มเรียกร้องให้มีการซิงค์การเคลื่อนไหวของริมฝีปากกับเสียง
กระดาษมาในแง่ของล่าสุด FBI เตือนธุรกิจ จากอันตรายของการฉ้อโกง Deepfake เกือบหนึ่งปีหลังจากการเปิดตัวเทคโนโลยี ใช้ในกิจการอิทธิพลต่างประเทศและจาก ความกลัวทั่วไป เทคโนโลยี Deepfake ที่ถ่ายทอดสดจะช่วยอำนวยความสะดวกให้กับคลื่นอาชญากรรมใหม่ ๆ ต่อสาธารณชนที่ยังคงไว้วางใจสถาปัตยกรรมความปลอดภัยในการตรวจสอบวิดีโอ
สิ่งเหล่านี้ยังคงเป็นวันแรกของ Deepfake ในฐานะพื้นผิวการโจมตีการพิสูจน์ตัวตน ในปี 2020 มีมูลค่า 35 ล้านดอลลาร์ สกัดอย่างฉ้อฉล จากธนาคารในยูเออีโดยใช้เทคโนโลยีเสียงปลอม และผู้บริหารในสหราชอาณาจักรก็ถูกหลอกลวงให้จ่ายเงิน 243,000 ดอลลาร์เช่นเดียวกัน ใน 2019.
เผยแพร่ครั้งแรก 23 กุมภาพันธ์ 2022