cybersecurity

การแก้ CAPTCHA ด้วยการเรียนรู้ของเครื่องเพื่อเปิดใช้งานการวิจัยเว็บมืด

การตีพิมพ์

2 ปีที่ผ่านมา

January 11, 2022

โครงการวิจัยทางวิชาการร่วมจากสหรัฐอเมริกาได้พัฒนาวิธีการสกัดกั้นการทดสอบ CAPTCHA* ซึ่งมีรายงานว่ามีประสิทธิภาพเหนือกว่าโซลูชันการเรียนรู้ของเครื่องที่ล้ำสมัยที่คล้ายกันโดยใช้ Generative Adversarial Networks (GAN) เพื่อถอดรหัสความท้าทายที่ซับซ้อนทางสายตา

การทดสอบระบบใหม่กับเฟรมเวิร์กปัจจุบันที่ดีที่สุด นักวิจัยพบว่าวิธีการของพวกเขาประสบความสำเร็จมากกว่า 94.4% ในชุดข้อมูลเกณฑ์มาตรฐานในโลกแห่งความจริงที่คัดสรรมาอย่างดี และได้พิสูจน์แล้วว่าสามารถ Dark Net Marketplace แก้ไขปัญหาความท้าทาย CAPTCHA โดยอัตโนมัติในความพยายามสูงสุดสามครั้ง

สถาปัตยกรรมสำหรับ DW-GAN ที่มา: https://arxiv.org/pdf/2201.02799.pdf

ขั้นตอนการทำงานสำหรับ DW-GAN ที่มา: https://arxiv.org/pdf/2201.02799.pdf

ผู้เขียนยืนยันว่าวิธีการของพวกเขาแสดงถึงความก้าวหน้าสำหรับนักวิจัยด้านความปลอดภัยในโลกไซเบอร์ ซึ่งตามธรรมเนียมแล้วต้องแบกรับต้นทุนในการจัดหามนุษย์ในวงจรเพื่อแก้ไข CAPTCHA ด้วยตนเอง ซึ่งโดยปกติแล้วจะผ่านแพลตฟอร์มการจัดหาฝูงชน เช่น Amazon Mechanical Turk (AMT)

หากระบบสามารถพิสูจน์ได้ว่าปรับตัวได้และยืดหยุ่นได้ อาจเป็นการปูทางเพิ่มเติมสำหรับระบบการกำกับดูแลแบบอัตโนมัติมากขึ้น และสำหรับการจัดทำดัชนีและการขูดเว็บของเครือข่าย TOR สิ่งนี้สามารถเปิดใช้งานการวิเคราะห์ที่ปรับขนาดได้และปริมาณมาก เช่นเดียวกับการพัฒนาแนวทางและเทคนิคด้านความปลอดภัยทางไซเบอร์ใหม่ๆ ซึ่งไฟร์วอลล์ CAPTCHA ได้รับการขัดขวางจนถึงทุกวันนี้

พื้นที่ กระดาษ มีบรรดาศักดิ์ การต่อต้าน CAPTCHA ที่ใช้ข้อความบนเว็บมืดพร้อมการเรียนรู้เชิงรุกเชิงรุกสำหรับข่าวกรองภัยคุกคามทางไซเบอร์เชิงรุกและมาจากนักวิจัยจาก University of Arizona, University of South Florida และ University of Georgia

ผลกระทบ

ตั้งแต่ระบบที่เรียกว่า Dark Web-GAN (DW-GAN, มีให้ที่ GitHub) – เห็นได้ชัดว่ามีประสิทธิภาพมากกว่ารุ่นก่อนมาก มีความเป็นไปได้ว่ามันจะถูกใช้เป็นวิธีการทั่วไปเพื่อเอาชนะเนื้อหา CAPTCHA (ซึ่งมักจะยากน้อยกว่า) บนเว็บมาตรฐาน ไม่ว่าจะในการใช้งานเฉพาะนี้ หรือขึ้นอยู่กับ หลักการทั่วไปที่เอกสารฉบับใหม่ได้สรุปไว้ อย่างไรก็ตาม เนื่องจากพื้นที่เก็บข้อมูลจำกัดที่ GitHub ปัจจุบันจำเป็นต้องติดต่อ Ning Zhang ผู้เขียนหลักเพื่อรับข้อมูลที่เกี่ยวข้องกับเฟรมเวิร์ก

เนื่องจาก DW-GAN มีภารกิจ 'เชิงบวก' ในการทำลาย CAPTCHA (โดยมาก เดิมที TOR เองมีภารกิจเชิงบวกในการปกป้องการสื่อสารทางทหารและต่อมาคือนักข่าว) และเนื่องจาก CAPTCHA เป็นทั้งการป้องกันที่ถูกต้อง (บ่อยครั้งและเป็นที่ถกเถียงกัน มือสอง โดย CloudFlare ยักษ์ใหญ่ของ CDN ที่แพร่หลาย) และเครื่องมือที่ชื่นชอบของตลาดเว็บมืดที่ผิดกฎหมาย แนวทางนี้อาจกล่าวได้ว่าเป็นเทคโนโลยี 'ปรับระดับ'

ผู้เขียนเองยอมรับว่า DW-GAN มีการใช้งานที่กว้างกว่า:

'[ในขณะที่] การศึกษานี้มุ่งเน้นไปที่ CAPTCHA เว็บมืดเป็นหลักเนื่องจากเป็นปัญหาที่ท้าทายมากขึ้น วิธีการที่เสนอในการศึกษานี้คาดว่าจะใช้ได้กับ CAPTCHA ประเภทอื่น ๆ โดยไม่สูญเสียความหมายทั่วไป'

สันนิษฐานว่า DW-GAN หรือระบบที่คล้ายคลึงกันจะต้องมีการแพร่กระจายอย่างกว้างขวางและเห็นได้ชัด เพื่อกระตุ้นตลาดดาร์กเว็บให้แสวงหาโซลูชันที่แก้ไขได้ด้วยเครื่องจักรน้อยลง หรืออย่างน้อยก็เพื่อพัฒนาการกำหนดค่า CAPTCHA เป็นระยะ ซึ่งเป็นสถานการณ์ 'สงครามเย็น'

แรงจูงใจ

ตามรายงาน เว็บมืดเป็นฟอนต์หลักของข่าวกรองแฮ็กเกอร์ที่เกี่ยวข้องกับการโจมตีทางไซเบอร์ ซึ่งได้แก่ ประมาณ ซึ่งจะทำให้เศรษฐกิจโลกเสียหายถึง 10 ล้านล้านเหรียญสหรัฐภายในปี 2025 ดังนั้น เครือข่ายหัวหอมจึงยังคงเป็นสภาพแวดล้อมที่ค่อนข้างปลอดภัยสำหรับชุมชนดาร์กเน็ตที่ผิดกฎหมาย ซึ่งสามารถขับไล่ผู้โดยสารที่อยู่ประจำด้วยวิธีการต่างๆ รวมถึงหมดเวลาเซสชัน คุกกี้ และการตรวจสอบสิทธิ์ผู้ใช้

CAPTCHA สองประเภท ทั้งแบบใช้พื้นหลังที่ทำให้สับสนและตัวอักษรแบบเอียงเพื่อให้เครื่องอ่านไม่ออก

อย่างไรก็ตาม ผู้เขียนสังเกตว่า ไม่มีอุปสรรคใดที่จะยิ่งใหญ่เท่ากับชุดของ CAPTCHA ที่ขัดขวางประสบการณ์การท่องเว็บในชุมชนที่ 'ละเอียดอ่อน':

'ในขณะที่มาตรการส่วนใหญ่เหล่านี้สามารถหลีกเลี่ยงได้อย่างมีประสิทธิภาพผ่านการใช้มาตรการตอบโต้อัตโนมัติในโปรแกรมรวบรวมข้อมูล แต่ CAPTCHA เป็นมาตรการป้องกันการรวบรวมข้อมูลที่ขัดขวางมากที่สุดในเว็บมืดที่ไม่สามารถหลีกเลี่ยงได้ง่ายเนื่องจากความสามารถในการรับรู้สูงซึ่งมักจะไม่มีอยู่ในระบบอัตโนมัติ เครื่องมือ'

CAPTCHA แบบข้อความไม่ใช่ตัวเลือกเดียวที่ใช้ได้ มีตัวแปรที่เราหลายคนคุ้นเคยซึ่งท้าทายให้ผู้ใช้ตีความวิดีโอ เสียง และโดยเฉพาะอย่างยิ่งรูปภาพ อย่างไรก็ตาม ตามที่ผู้เขียนสังเกต CAPTCHA แบบข้อความคือ ขณะนี้ความท้าทายของการเลือก สำหรับตลาดดาร์กเว็บ และเป็นจุดเริ่มต้นตามธรรมชาติในการทำให้เครือข่าย TOR อ่อนแอต่อการวิเคราะห์ด้วยเครื่องมากขึ้น

สถาปัตยกรรม

แม้ว่าแนวทางก่อนหน้านี้จากมหาวิทยาลัย Northwest ในประเทศจีนใช้ Generative Adversarial Networks เพื่อหารูปแบบคุณลักษณะจากแพลตฟอร์ม CAPTCHA ผู้เขียนรายงานฉบับใหม่ทราบว่าวิธีนี้อาศัยการตีความภาพแรสเตอร์ มากกว่าการตรวจสอบตัวอักษรที่ได้รับการยอมรับในการท้าทายอย่างลึกซึ้งยิ่งขึ้น ; และประสิทธิภาพของ DW-GAN ไม่ได้รับผลกระทบจากความยาวผันแปรของคำไร้สาระ (และตัวเลข) ที่มักพบใน CAPTCHA ของเว็บมืด

DW-GAN ใช้ไปป์ไลน์สี่ขั้นตอน: ขั้นแรกจับภาพ จากนั้นป้อนไปยังโมดูล denoising พื้นหลังซึ่งใช้ GAN ที่ได้รับการฝึกอบรมในตัวอย่าง CAPTCHA ที่มีคำอธิบายประกอบ ดังนั้นจึงสามารถแยกแยะตัวอักษรจากพื้นหลังที่ก่อกวนได้ กำลังพักผ่อนอยู่ จากนั้นตัวอักษรที่ดึงออกมาจะถูกกรองเพิ่มเติมออกจากสัญญาณรบกวนใดๆ ที่เหลืออยู่หลังจากการแยกตาม GAN

ถัดไป การแบ่งกลุ่มจะดำเนินการกับข้อความที่แยกออกมา ซึ่งจะแบ่งออกเป็นอักขระที่ประกอบขึ้นโดยใช้อัลกอริทึมการตรวจจับรูปร่าง

การแบ่งส่วนอักขระจะแยกกลุ่มพิกเซลและพยายามจดจำด้วยการติดตามเส้นขอบ

ในที่สุด ส่วนของอักขระที่ 'เดา' จะต้องได้รับการจดจำอักขระผ่าน Convolutional Neural Network (CNN)

บางครั้งอักขระอาจทับซ้อนกัน ซึ่งเป็นไฮเปอร์เคอร์นิงที่ออกแบบมาเพื่อหลอกระบบเครื่องจักรโดยเฉพาะ ดังนั้น DW-GAN จึงใช้การแบ่งส่วนตามช่วงเวลาเพื่อปรับปรุงและแยกเส้นขอบ ทำให้สามารถแยกอักขระได้อย่างมีประสิทธิภาพ เนื่องจากคำเหล่านี้มักไม่มีสาระ จึงไม่มีบริบททางความหมายที่จะช่วยในกระบวนการนี้

ผลสอบ

DW-GAN ได้รับการทดสอบเทียบกับภาพ CAPTCHA จากชุดข้อมูลเว็บมืดที่หลากหลายสามชุด รวมทั้งตัวสังเคราะห์ CAPTCHA ที่เป็นที่นิยม ตลาดมืดซึ่งเป็นจุดเริ่มต้นของภาพประกอบด้วยร้านไพ่สองร้าน ได้แก่ Rescator-1 และ Rescator-2 และนวนิยายเรื่องหนึ่งซึ่งสร้างจากตลาดเกิดใหม่ในขณะนั้นชื่อ Yellow Brick (ซึ่งก็คือ รายงาน ที่จะหายไปในภายหลังหลังจากการลบ DarkMarket)

ตัวอย่าง CAPTCHA จากชุดข้อมูลสามชุด รวมถึงตัวสังเคราะห์ CAPTCHA แบบโอเพ่นซอร์ส

ผู้เขียนกล่าวว่าข้อมูลที่ใช้ในการทดสอบได้รับการแนะนำโดยผู้เชี่ยวชาญด้าน Cyber Threat Intelligence (CTI) โดยพิจารณาจากการแพร่กระจายอย่างกว้างขวางในตลาดมืด

การทดสอบชุดข้อมูลแต่ละชุดเกี่ยวข้องกับการพัฒนาแมงมุมที่หันเข้าหา TOR ซึ่งมีหน้าที่รวบรวมภาพ CAPTCHA 500 ภาพ ซึ่งที่ปรึกษา CTI ติดป้ายกำกับและดูแลในภายหลัง

มีการทดลองสามครั้ง ครั้งแรกประเมินประสิทธิภาพที่เอาชนะ CAPTCHA ทั่วไปของ DW-GAN เทียบกับวิธี SOTA มาตรฐาน วิธีการของคู่ต่อสู้คือ CNN ระดับภาพพร้อมการประมวลผลล่วงหน้าที่เกี่ยวข้องกับการแปลงระดับสีเทา การทำให้เป็นมาตรฐาน และการทำให้เรียบแบบเกาส์เซียน ซึ่งเป็นความพยายามทางวิชาการร่วมกันจากอิหร่านและสหราชอาณาจักร CNN ระดับตัวละคร ด้วยการแบ่งส่วนตามช่วงเวลา และ ซีเอ็นเอ็นระดับภาพจากมหาวิทยาลัยออกซ์ฟอร์ดในสหราชอาณาจักร

ผลลัพธ์จาก DW-GAN สำหรับการทดลองครั้งแรก เปรียบเทียบกับวิธีการอันล้ำสมัยก่อนหน้านี้

นักวิจัยพบว่า DW-GAN สามารถปรับปรุงผลลัพธ์ก่อนหน้านี้ได้ทั่วทั้งกระดาน (ดูตารางด้านบน)

การทดลองที่สองเป็นการศึกษาการระเหย ซึ่งองค์ประกอบต่างๆ ของเฟรมเวิร์กที่ใช้งานอยู่จะถูกลบออกหรือปิดใช้งานเพื่อลดความเป็นไปได้ที่ปัจจัยภายนอกหรือปัจจัยรองจะมีอิทธิพลต่อผลลัพธ์

ผลการศึกษาการระเหย

ผู้เขียนพบว่าการปิดใช้งานส่วนสำคัญของสถาปัตยกรรมลดประสิทธิภาพของ DW-GAN ในเกือบทุกกรณี (ดูตารางด้านบน)

การทดสอบแบบออฟไลน์ครั้งที่สามเปรียบเทียบประสิทธิภาพของ DW-GAN กับวิธีอ้างอิงภาพมาตรฐานและวิธีระดับอักขระสองวิธี เพื่อกำหนดขอบเขตที่การประเมินอักขระของ DW-GAN มีอิทธิพลต่อประโยชน์ของมันในกรณีที่คำ CAPTCHA ไร้สาระเป็นคำโดยพลการ (แทนที่จะกำหนดไว้ล่วงหน้า) ความยาว ในกรณีเหล่านี้ ความยาวของ CAPTCHA จะแตกต่างกันไประหว่าง 4 ถึง 7 อักขระ

สำหรับการทดลองนี้ ผู้เขียนใช้ชุดการฝึกของภาพ CAPTCHA 50,000 ภาพ โดยสงวนไว้ 5,000 ภาพสำหรับการทดสอบในการแบ่ง 90/10 โดยทั่วไป

ในที่นี้ DW-GAN มีประสิทธิภาพดีกว่าวิธีก่อนหน้า:

การทดสอบสดในตลาด Dark Net

ในที่สุด DW-GAN ก็ถูกนำไปใช้กับตลาดมืด Yellow Brick (ในขณะนั้น) สำหรับการทดสอบนี้ เว็บเบราเซอร์ของ Tor ได้รับการพัฒนาขึ้นโดยรวม DW-GAN เข้ากับความสามารถในการเรียกดู โดยแยกวิเคราะห์ความท้าทายของ CAPTCHA โดยอัตโนมัติ

ในสถานการณ์สมมตินี้ CAPTCHA จะแสดงต่อโปรแกรมรวบรวมข้อมูลอัตโนมัติสำหรับคำขอ HTTP ทุก 15 คำขอโดยเฉลี่ย โปรแกรมรวบรวมข้อมูลสามารถจัดทำดัชนีสินค้าผิดกฎหมาย 1,831 รายการสำหรับขายใน Yellow Brick รวมถึงผลิตภัณฑ์ที่เกี่ยวข้องกับยาเสพติด 1,223 รายการ (รวมถึงโอปิออยด์และโคเคน) แพ็คเกจการแฮ็ก 44 รายการ และการสแกนเอกสารปลอม 286 รายการ โดยรวมแล้ว ระบบสามารถระบุรายการที่เกี่ยวข้องกับความปลอดภัยในโลกไซเบอร์ได้ 102 รายการ รวมถึงบัตรเครดิตที่ถูกแอบอ้าง 131 ใบ และการเข้าสู่ระบบบัญชีที่ถูกขโมย XNUMX รายการ

ผู้เขียนระบุว่าในทุกกรณี DW-GAN สามารถถอดรหัส CAPTCHA ได้ในความพยายามสามครั้งหรือน้อยกว่านั้น และเวลาในการประมวลผล 76 นาทีนั้นจำเป็นสำหรับบัญชี CAPTCHA ที่ปกป้องผลิตภัณฑ์ทั้งหมด 1,831 รายการ ไม่จำเป็นต้องมีมนุษย์เข้ามาแทรกแซง และไม่มีกรณีความล้มเหลวของเอ็นด์พอยต์เกิดขึ้น

ผู้เขียนสังเกตเห็นการเกิดขึ้นของความท้าทายที่มีระดับความซับซ้อนมากกว่าข้อความ CAPTCHA รวมถึงบางอย่างที่ดูเหมือนจำลองมาจากการทดสอบของทัวริง และสังเกตว่า DW-GAN สามารถปรับปรุงเพื่อรองรับแนวโน้มใหม่เหล่านี้เมื่อพวกเขากลายเป็นที่นิยม

*การทดสอบแบบอัตโนมัติอย่างสมบูรณ์สาธารณะทัวริงจะบอกคอมพิวเตอร์และมนุษย์นอกจาก

เผยแพร่ครั้งแรก 11 มกราคม 2022

หัวข้อที่เกี่ยวข้อง:โลกไซเบอร์GAN GAN เครือข่ายปฏิปักษ์ทั่วไป การวิจัย ความปลอดภัย

ต่อไป

ใช้ประโยชน์จาก AI เพื่อเพิ่มประสิทธิภาพเครือข่ายและรักษาความปลอดภัยข้อมูล – ผู้นำทางความคิด

อย่าพลาด

การรักษาความปลอดภัยโครงสร้างพื้นฐานจากแรนซัมแวร์ – ผู้นำทางความคิด

Martin Anderson

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai

ยูไนเต็ด.เอไอ

การแก้ CAPTCHA ด้วยการเรียนรู้ของเครื่องเพื่อเปิดใช้งานการวิจัยเว็บมืด

cybersecurity