cybersecurity
ต่อสู้กับการบล็อก Adblock ด้วยการเรียนรู้ของเครื่อง

โครงการริเริ่มการวิจัยใหม่จากสหรัฐอเมริกาและปากีสถานได้พัฒนาวิธีการที่ใช้การเรียนรู้ของเครื่องเพื่อระบุเว็บไซต์ที่ทนทานต่อการบล็อกโฆษณาและเทคโนโลยีการรักษาความเป็นส่วนตัวอื่นๆ ตลอดจนการแยกโครงสร้างเทคนิคต่างๆ ที่ไซต์ดังกล่าวใช้เพื่อ 'ผสมผสาน' ต้นกำเนิดของโฆษณาและ เนื้อหาจริงเพื่อไม่ให้เนื้อหาดูได้หากโฆษณาถูกบล็อก
เทคโนโลยีการบล็อกโฆษณาแบบใหม่ที่พัฒนาขึ้นจากการค้นพบนี้อาจช่วยยุติเหตุการณ์ที่เนื้อหาส่วนกลางของบทความไม่สามารถมองเห็นได้เมื่อโฆษณาถูกบล็อก โดยให้วิธีการอัตโนมัติในการแยกทรัพยากรโฆษณาและสคริปต์ แทนที่จะใช้วิธีการแบบแมนนวลที่ใช้อยู่ในปัจจุบันโดยเฟรมเวิร์กการบล็อกโฆษณายอดนิยม .
ผู้เขียนได้ทำการศึกษาขนาดใหญ่ของ 'ทรัพยากรแบบผสม' ในเว็บไซต์ 100,000 แห่ง โดยพบว่า 17% ของโดเมน 48% ของชื่อโฮสต์ 6% ของสคริปต์ และวิธีการจัดส่งเนื้อหา 9% ผสมผสานฟังก์ชันการติดตาม (เช่น การโฆษณา) โดยเจตนา ด้วยกระบวนการที่นำเสนอเนื้อหาที่แท้จริง ในกรณีดังกล่าว เนื้อหาของบทความจะหายไปสำหรับผู้ใช้ที่ใช้ซอฟต์แวร์บล็อกโฆษณาหรือต่อต้านการติดตาม ทำให้ผู้ใช้ต้องปิดมาตรการเหล่านี้เพื่อดูเนื้อหา
ในกรณีส่วนใหญ่ นี่ไม่ได้หมายความว่าโฆษณาจะมองเห็นได้อีกครั้ง แต่ยังรวมถึงผู้ใช้จะถูกบังคับให้กลับเข้าสู่ระบบการติดตามผลแบบข้ามโดเมนที่มี นักรณรงค์ด้านความเป็นส่วนตัวที่ลุกเป็นไฟ ในปีที่ผ่านมา.
การวิจัยครั้งใหม่นี้นำเสนอระบบที่สามารถแยกส่วนประกอบของทรัพยากรบนเว็บที่ 'ผสมกัน' เหล่านี้ได้ด้วยความแม่นยำ 98% ทำให้โซลูชั่น adblocking และ anti-tracking สามารถแยกแยะสตรีมออกได้ในการทำซ้ำซอฟต์แวร์ในภายหลัง และเปิดใช้งานอีกครั้ง การเข้าถึงเนื้อหาในหน้า adblocked
เค้ก กระดาษใหม่ มีบรรดาศักดิ์ TrackerSift: คลายการติดตามแบบผสมและทรัพยากรบนเว็บที่ใช้งานได้และมาจากนักวิจัยที่ Virginia Tech และ UoC Davis ในสหรัฐอเมริกา และ FAST NUCES และ Lahore University of Management Sciences (LUMS) ในปากีสถาน
สงคราม Adblock
โดยทั่วไปแล้ว ระบบ Adblocking อาศัยความต้องการเนื้อหาโฆษณาในหน้าเว็บที่มาจากโดเมนเฉพาะเจาะจงโดยเฉพาะ โดยทั่วไปแพลตฟอร์ม adtech ที่มีชื่อโดเมนและ/หรือที่อยู่ IP ที่สามารถจัดประเภทเป็น 'โฆษณาของบุคคลที่สาม' ทำให้สามารถพัฒนา รายการบล็อกที่จะไม่แสดงเนื้อหาจากต้นทางเหล่านั้นภายในหน้าเว็บ
นอกจากนี้ ชื่อของทรัพยากรเฉพาะโฆษณา เช่น สคริปต์ สามารถเพิ่มลงในรายการบล็อกได้ ดังนั้นสิ่งเหล่านี้จะไม่ทำงานแม้ในกรณีที่แหล่งที่มาถูกบดบังโดยเจตนา รูปแบบการตั้งชื่อของสคริปต์ที่สร้างขึ้นอย่างเป็นระบบดังกล่าวมักจะสอดคล้องกัน ทำให้สามารถจดจำและบล็อกรายการได้
เนื่องจากโฆษณาที่แสดงในหน้าเว็บมักถูกเลือกในช่วงไม่กี่มิลลิวินาทีสุดท้ายของการโหลดหน้าเว็บ กระบวนการประมูลแบบไดนามิก (ขึ้นอยู่กับคำหลักที่พบในหน้าเว็บ ตัวชี้วัดเป้าหมายของแคมเปญ และปัจจัยอื่นๆ อีกมากมาย) การจัดเก็บโฆษณาบนโดเมนโฮสต์นั้นไม่สามารถปฏิบัติได้ ซึ่งในทางทฤษฎีจะขัดขวางไม่ให้ผู้บล็อกโฆษณาซ่อนเนื้อหาเชิงพาณิชย์
เว็บไซต์ต่าง ๆ กำลังต่อสู้กับการบล็อกโฆษณามากขึ้นเรื่อยๆ การปิดบัง CNAME – การใช้โดเมนย่อยของโดเมน 'ของแท้' เป็นพร็อกซีไปยังเซิร์ฟเวอร์โฆษณา (เช่น content.example.com จะแสดงโฆษณาให้กับ example.com แม้ว่าโดเมนย่อยนั้นจะไม่มีจุดประสงค์อื่นใดนอกจากการแสดงโฆษณา และไม่ได้รับการดูแลโดย เว็บไซต์โฮสต์ แต่โดยผู้โฆษณา)
อย่างไรก็ตาม วิธีการนี้สามารถวัดปริมาณและบล็อกได้โดยการแยกแยะเนื้อหาของโดเมนย่อยว่าเป็นโฆษณา หรือใช้เทคนิคการวิเคราะห์เครือข่ายเพื่อระบุความสัมพันธ์ที่ผิดปกติและไม่สม่ำเสมอของโดเมนย่อยกับโดเมนหลัก
ตัวติดตาม Sift
บทความของผู้เขียนเสนอ TrackerSift ซึ่งเป็นแพลตฟอร์มสำหรับวิเคราะห์ทรัพยากรเครือข่ายที่ดึงมาจากเว็บไซต์ จากนั้นจัดหมวดหมู่ทรัพยากรแบบผสมใหม่เป็น 'เนื้อหา' และ 'โฆษณา' ที่ระดับการวิเคราะห์โดยทั่วไป TrackerSift จะบันทึกคำขอเครือข่ายพื้นฐานสำหรับทรัพยากร เช่น เนื้อหาโฆษณาที่ดึงมาจาก Content Delivery Network (CDN) หรือแพลตฟอร์มโฆษณา แต่จากนั้นจะเจาะลึกลงไปถึงเนื้อหาของทรัพยากรที่ดึงมา ดำเนินการวิเคราะห์ระดับรหัส และแยกความแตกต่างของฟังก์ชันของการเรียกรหัสและขั้นตอนประเภทต่างๆ

ลำดับชั้นการวิเคราะห์ของ TrackerSift ตั้งแต่การติดตามทรัพยากร (สีแดง) จนถึงทรัพยากรการทำงานที่จำเป็น (สีเขียว) ทรัพยากรแบบผสมซึ่งมีแนวโน้มที่จะนำไปสู่การสร้างความสับสนให้กับเนื้อหา (สีเหลือง) จะต้องได้รับการวิเคราะห์เชิงลึก ที่มา: https://arxiv.org/pdf/2108.13923.pdf
ข้อมูล
เพื่อให้ได้ชุดข้อมูลที่ขับเคลื่อน TrackerSift ผู้เขียนได้ทำการสืบค้นเว็บไซต์สุ่มเลือก 100,000 แห่งจากปี 2018 Tranco รายการล้านบน. ซีลีเนียม เบราว์เซอร์อัตโนมัติถูกใช้ร่วมกับ Google Chrome เพื่อทำงาน
เครือข่ายการรวบรวมข้อมูลเว็บมีพื้นฐานมาจากไซต์ของมหาวิทยาลัยในอเมริกาเหนือ ซึ่งประกอบด้วยคลัสเตอร์ 13 โหนดที่มี 112 คอร์ พื้นที่เก็บข้อมูล 52 เทราไบต์ และ RAM สำหรับใช้งาน 823 กิกะไบต์ในทั้งระบบ
แต่ละโหนดอยู่ในคอนเทนเนอร์ Docker และทุ่มเทให้กับการรวบรวมข้อมูลชุดย่อยของหน้าเว็บ 100,000 หน้าที่เลือกไว้ โดยมีการหยุดชั่วคราวแบบเป็นโปรแกรมเพื่อความยั่งยืน และการลบคุกกี้และตัวระบุทั้งหมดอย่างสมบูรณ์เมื่อโหลดโดเมนใหม่ เพื่อให้แน่ใจว่าเซสชันและสถานะก่อนหน้าไม่ส่งผลต่อ ความสามารถในการอ่านของโดเมนถัดไป
สคริปต์ผสม
ผลลัพธ์แสดงการใช้งานอย่างกว้างขวางของ การรวมสคริปต์โดยที่แพลตฟอร์มโฆษณาและโฮสต์เนื้อหาจงใจเชื่อมสคริปต์ตามเนื้อหาและสคริปต์ตามโฆษณาเข้าด้วยกันเป็น 'uberscripts' ซึ่งจะขัดขวางการแสดงเนื้อหาหากถูกบล็อก ตัวอย่างเช่น ผู้เขียนทราบว่า pressl.co ให้บริการเว็บสคริปต์ที่รวมผ่านทาง เว็บแพ็ค แพลตฟอร์มตัวต่อ JavaScript ซึ่งมีพิกเซลการติดตามของ Facebook และโค้ดที่เปิดใช้งานการแสดงผลเนื้อหาจริง
นอกจากนี้ เอกสารยังระบุด้วยว่าโดเมนจำนวนหนึ่งยินดีฝังสคริปต์ลงในโค้ดของหน้าเว็บโดยตรง ทำให้กรอบการบล็อกโฆษณาจำเป็นต้องระบุฟังก์ชันการทำงานภายในสคริปต์ แทนที่จะป้องกันไม่ให้สคริปต์โหลดโดยอิงตามที่สาม- URL แหล่งที่มาของปาร์ตี้
การปรับวิธีการเหล่านี้ให้เหมาะกับท้องถิ่น เส้นทางจะชัดเจนสำหรับการแบ่งโค้ดดังกล่าวออกเป็นเนื้อหาและหมวดหมู่โฆษณาอย่างเป็นระบบ และอาจกู้คืนการแสดงเนื้อหาในสภาพแวดล้อมที่ถูกบล็อกโฆษณาได้
แม้ว่าโซลูชันการบล็อกโฆษณาที่มีอยู่ เช่น NoScript, AdGuard, uBlock Origin และ Firefox Smartblock จะใช้สคริปต์ตัวแทนซึ่งแยกส่วนสคริปต์ที่ผสานดังกล่าวออกเป็นสคริปต์คอมโพเนนต์ที่บล็อกได้ แต่สิ่งเหล่านี้ขึ้นอยู่กับ การเขียนซ้ำด้วยตนเอง ของสคริปต์ที่นำไปสู่สงครามเย็นระหว่างผู้บล็อกและเทคนิคที่เปลี่ยนแปลงตลอดเวลาที่ทำลายพวกเขา ในทางตรงกันข้าม TrackerSift นำเสนอวิธีการเชิงโปรแกรมที่เป็นไปได้สำหรับการแยกย่อยเนื้อหาแบบผสม