Connect with us

นกกระสาแห่งการเปิดเผยการจราจร AI

มุมมองของ Anderson

นกกระสาแห่งการเปิดเผยการจราจร AI

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

ในงานศึกษใหม่ นักวิจัยซ่อนข้อความที่ไม่เหมือนใครบนเว็บไซต์ และจับ AI ชัตบอทที่ทำซ้ำข้อความเหล่านั้น ทำให้เห็นถึงการขุดค้นข้อมูลที่ซ่อนอยู่ และเห็นได้ชัดว่ามีการกระทำที่หลอกลวงจากบริษัท AI ที่ใหญ่ที่สุดบางแห่ง

 

บริษัท AI ต่อสู้เพื่อความได้เปรียบในการแข่งขันที่คาดว่าจะ ลดลงอย่างรุนแรง ดังนั้นพวกเขาจึงต้องการขุดค้นข้อมูลจากเว็บไซต์ของคุณเพื่อใช้ในการฝึกอบรมโมเดล AI ของพวกเขา บางครั้ง อย่างต่อเนื่อง มักจะ ฝ่าฝืน ความต้องการที่ระบุไว้ และบ่อยครั้ง ปลอมตัว เป็นคนอ่านธรรมดาหรือบอทที่ “เป็นมิตร” เช่น GoogleBot แทนที่จะเปิดเผยตัวตนจริงของตนเองว่าเป็น AI ขุดค้นข้อมูล

ปัจจุบัน คาดการณ์ ว่าบอท AI ที่ออกแบบมาเพื่อดูดข้อมูลใหม่ๆ และตอบสนองความต้องการของผู้ใช้จะ超过จำนวนมนุษย์ภายในหนึ่งปี

การขุดค้นข้อมูลอย่างไม่หยุดยั้งนี้เกิดขึ้นบางส่วนเนื่องจากความต้องการของแต่ละหน่วย AI ที่จะมีข้อมูลอินเทอร์เน็ตที่เป็นของตนเอง แทนที่จะใช้ข้อมูลที่เก่าแล้ว เช่น Common Crawl และอาจเป็นเพราะบริษัทเหล่านั้นต้องการ หลีกเลี่ยงข้อจำกัดทางกฎหมาย และต้องการทำ การล้าง IP ให้เร็วที่สุด

นอกจากนี้ โดยการตรวจสอบเว็บไซต์ที่เป็นไปได้มากที่สุด AI บริษัทอาจหวังที่จะปรับปรุง ความสามารถที่ไม่ดี ในการตอบสนองอย่างมีข้อมูลและแม่นยำต่อสถานการณ์ที่เกิดขึ้นใหม่

ไม่ว่าจะด้วยวิธีใด การกระทำเหล่านี้ดูเหมือนจะไม่ได้รับการควบคุมและไม่สามารถควบคุมได้มาเป็นเวลานานแล้ว

ปัญหาอยู่ที่ว่ามันไม่ใช่เรื่องง่ายที่จะพิสูจน์ว่าบริษัท AI กำลังทำอะไรเพื่อจัดการกับความกระหายข้อมูลของตน

ติดตามข้อมูล

คำแนะนำหนึ่งที่เสนอในงานวิจัยใหม่คือการเปลี่ยนแปลงวิธีการเก่าในการค้นหาสายลับ ผู้ให้ข้อมูล และผู้กระทำผิดอื่นๆ โดยการเปิดเผยข้อมูลที่ปรับแต่งให้เหมาะสมซึ่งไม่มีใครรู้จัก และดูว่าข้อมูลนั้นจะปรากฏขึ้นที่ไหน หากไม่มีใครรู้จักข้อมูลนั้น แหล่งที่มาของการรั่วไหลก็จะถูกพิสูจน์แล้ว

แนวคิดหลักของนักวิจัยที่ระบุไว้ในงานวิจัยใหม่คือการให้แต่ละบอทที่มาเยี่ยมชมเว็บไซต์เวอร์ชันที่แตกต่างกันของหน้าเดียวกัน จากนั้นถาม AI ชัตบอทเกี่ยวกับหน้านั้นและดูว่าเวอร์ชันไหนที่จะกลับมา ซึ่งทำให้สามารถติดตามการค้นหาที่ซ่อนอยู่ที่จัดหาคำตอบได้

แนวคิดหลักของนักวิจัยที่ระบุไว้ในงานวิจัยใหม่คือการให้แต่ละบอทที่มาเยี่ยมชมเว็บไซต์เวอร์ชันที่แตกต่างกันของหน้าเดียวกัน จากนั้นถาม AI ชัตบอทเกี่ยวกับหน้านั้นและดูว่าเวอร์ชันไหนที่จะกลับมา ซึ่งทำให้สามารถติดตามการค้นหาที่ซ่อนอยู่ที่จัดหาคำตอบได้ แหล่งที่มา

วิธีการนี้ เป็นที่รู้จัก มากที่สุดผ่าน มาตรการป้องกันการละเมิดลิขสิทธิ์ ที่คณะกรรมการรางวัลออสการ์ใช้ในปี 2000 โดยที่แผ่น DVD ที่แจกให้กับสมาชิกที่มีสิทธิ์ลงคะแนนเสียงได้รับการทำเครื่องหมายดิจิทัลด้วย ID ที่ไม่ซ้ำกันซึ่งสามารถย้อนกลับไปยังผู้รับได้หากภาพยนตร์ถูกปล่อยออกไปบนอินเทอร์เน็ต ในการ间諜 วิธีการนี้เรียกว่า อาหารบาริอัม หลังจากการปฏิบัติที่ใช้สารกัมมันตภาพรังสีของเหลวเพื่อแสดงถึงหลอดเลือดในการสแกนทางการแพทย์และระบุการอุดตัน

(อย่างไรก็ตาม โจทย์ “นกกระสา” ที่เลือกไม่เหมาะสมกับสถานการณ์ที่งานวิจัยกล่าวถึง แม้ว่าจะเป็นที่รู้จักกันมากกว่าเทคนิคอื่นๆ)

ในกรณีของการวิจัยใหม่นี้ ผู้เขียนสร้างโดเมน “honeypot” 20 โดเมนและให้โทเค็นที่ไม่ซ้ำกันแก่ผู้มาเยี่ยมชมแต่ละคน เพื่อให้แต่ละคนได้รับข้อเท็จจริงที่แตกต่างกัน (ดูคอลัมน์ที่สองจากซ้ายในภาพด้านบน)

วัตถุประสงค์คือการเปิดเผยตัวตนและพฤติกรรมที่แท้จริงของ LLM (AI) ที่ขุดค้นข้อมูล

การกระทำที่ไม่เหมาะสม

แน่นอนว่าสิ่งนี้จะไม่จำเป็นหากเราไม่ได้อยู่ในระยะ “วイルด์เวสต์” ของ AI V3 และหากบริษัทปฏิบัติตาม ไฟล์ข้อความขนาดเล็ก ที่โดเมนสามารถใช้เพื่อบอกให้บริษัท AI ไม่ขุดค้นข้อมูล

ตามที่เกิดขึ้นในการทดสอบของนักวิจัย บริษัท AI เพียงแห่งเดียวที่ดูเหมือนจะเคารพพฤติกรรมและหลักการของตนเองคือ DuckDuckbot ของ DuckDuckGo ซึ่งเป็นตัวแทนของตัวเองอย่างถูกต้องและหยุดรายงาน “ข้อมูลลับ” ทันทีที่โดเมนที่มุ่งเน้นถูกปิด (บริษัท AI อื่นๆ ใช้เวอร์ชันที่แคชและกลอุบายอื่นๆ) หรือไฟล์ robots.txt ของโดเมนถูกเปลี่ยนเป็นการปฏิเสธการขุดค้นข้อมูลของ AI

ผู้เล่นที่ใหญ่ที่สุดหลายรายปลอมตัวเป็น เบราว์เซอร์ ทั่วไป (เช่นเดียวกับที่เว็บไซต์จะเห็นหากคุณหรือฉันเข้าชม) และตาม การนำของ Perplexity ในปี 2025 ปลอมตัวเป็น GoogleBot ซึ่งมี “พาสที่เป็นของตัวเอง” เพื่อเข้าถึงข้อมูลเว็บไซต์เพราะมันคืน การเปลี่ยนแปลง นั้น

ผู้กระทำผิดที่แย่ที่สุดตามรายงานคือตัวขุดค้นข้อมูลที่ให้อาหาร ระบบ Kimi AI:

‘Kimi ดูเหมือนจะเป็นกรณีที่รุนแรงที่สุดของพฤติกรรมนี้: ตัวแทนผู้ใช้หลายตัวดูเหมือนจะเกี่ยวข้องกับข้อมูลที่ออกมาจาก Kimi เราอนุมานว่า Kimi หมุนเวียนผ่านรายการ User-Agent ที่ยาวมากในขณะที่ขุดค้นข้อมูล อาจจะหลีกเลี่ยงการตรวจจับบอท’

สิ่งที่ทำให้ปัญหานี้เป็นความท้าทายที่สำคัญคือเมื่อ ChatGPT หรือเครื่องมือที่คล้ายกัน “ค้นหาสิ่งใดสิ่งหนึ่ง” กระบวนการนั้นจะไม่เห็นได้ชัดเจน โดยที่บริษัทให้เพียงบัญชีที่ไม่สมบูรณ์หรือรายงานตนเองเกี่ยวกับวิธีการที่ระบบของตนรวบรวมข้อมูลสด ซึ่งทำให้ผู้เป็นเจ้าของเว็บไซต์ไม่มีวิธีที่ชัดเจนในการบอกว่าบอทใดที่กำลังเข้าชมเว็บไซต์ของตน

ผลการวิจัยจากการศึกษใหม่แสดงให้เห็นว่า LLM อาจใช้ข้อมูลที่แคชไว้จากโดเมน ข้อมูลที่แคชไว้ภายใน และบ่อยครั้งใช้ข้อมูลจากผลการค้นหาของบริษัทที่ไม่มีการเชื่อมโยงแบบสาธารณะ และไม่มีข้อตกลงการใช้งานที่ชัดเจน

ผู้เขียนเชื่อว่าการเปิดเผยนี้เป็นครั้งแรกที่งานวิจัยได้กล่าวถึงการบุกรุกที่ไม่ต้องการโดยระบบ RAG (การเรียกแบบเรียลไทม์จาก LLM ที่อาจหรือไม่อาจมีผู้ใช้ทำงาน) แทนที่จะเป็นบอทขุดค้นข้อมูลที่กำลังมองหาข้อมูลใหม่ๆ สำหรับชุดข้อมูลการฝึกอบรม

งานวิจัยใหม่ ชื่อ การระบุ AI Web Scrapers โดยใช้โทเค็น Canary และมาจากนักวิจัยหกคนจาก Duke University, University of Pittsburgh และ Carnegie Mellon

วิธีการ

นักวิจัยตั้งค่าโดเมน .com 20 โดเมนด้วยเว็บไซต์ที่คล้ายกันภายใต้เทมเพลตทั่วไป เช่น พอร์ตโฟลิโอทางศิลปะหรือเว็บไซต์บริษัท เทมเพลตแต่ละอันมี 10 ช่องที่จะถูกเติมด้วยโทเค็นที่ไม่ซ้ำกันซึ่งจะถูกกำหนดให้กับผู้มาเยี่ยมชมแต่ละคน (ตามปัจจัยต่างๆ เช่น ที่อยู่ IP, ลายนิ้วมือของแคนวาส และวิธีการ “จับกลิ่น” อื่นๆ):

ตัวอย่างเทมเพลตและช่องที่ใช้ในการทดลอง ผู้มาเยี่ยมชมแต่ละคนจะได้รับตัวแปรที่กำหนดเอง

ตัวอย่างเทมเพลตและช่องที่ใช้ในการทดลอง ผู้มาเยี่ยมชมแต่ละคนจะได้รับตัวแปรที่กำหนดเอง

ผู้มาเยี่ยมชมแต่ละคนจะได้รับตัวแปรที่กำหนดเอง ในกรณีที่ระบบตรวจพบการกลับมาของผู้มาเยี่ยมชมเดิม ตัวแปรเดียวกันกับที่เคยได้รับจะถูกนำเสนออีกครั้ง ตัวแปรถูกสร้างขึ้นโดยใช้ ไลบรารี Python Faker และตัวสร้างตัวเลขสุ่มที่ไม่ได้ระบุ

โดเมน “honeypot” ถูกส่งไปยังอินเด็กซ์ต่างๆ เช่น Google และ Bing และเชื่อมโยงจากโดเมนอื่นๆ ที่ผู้เขียนควบคุม

ให้เวลาผ่านไปสองเดือนเพื่อให้การ扫描จากบอทค้นหาและบอทอื่นๆ มีโอกาสเข้าชม จากนั้นผู้วิจัยสามารถถาม AI ชัตบอทที่เป้าหมาย (ด้านล่าง)

AI ชัตบอท ผู้จัดพิมพ์
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
DeepSeek DeepSeek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI ชัตบอท ผู้จัดพิมพ์
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

สคริปต์ถูกสร้างขึ้นเพื่อถามระบบแต่ละระบบผ่าน API ที่เป็นไปได้ เมื่อไม่สามารถทำได้ และเมื่อเครื่องมืออัตโนมัติ เช่น Selenium ถูกปิดกั้นโดยการตรวจจับบอทของพอร์ทัล AI การโต้ตอบแบบมือจะถูกดำเนินการผ่าน GUI ของ LLM อย่างเป็นทางการ

หลังจากการแลกเปลี่ยนแบบเทมเพลต (ดูภาพด้านบน) ผู้เขียนตามด้วยคำถามที่ออกแบบมาเพื่อกระตุ้นให้ AI ชัตบอทตอบด้วยชื่อบริษัทหรือบุคคลที่เกี่ยวข้องกับโทเค็น

การทดลองดำเนินไปในสามเงื่อนไข: เว็บไซต์ที่สามารถเข้าถึงได้, เว็บไซต์ที่ถูกปิด, และเว็บไซต์ที่มีข้อจำกัด robots.txt ที่ขัดขวางการขุดค้นข้อมูล การทดลองเหล่านี้ดำเนินไปในลำดับนั้น เนื่องจากขั้นตอนหลังต้องอาศัยขั้นตอนก่อนหน้า

สุดท้าย เมื่อเว็บไซต์ทั้งหมดถูกเปิดใช้งานอีกครั้ง การทดสอบสุดท้ายจะทดสอบผลลัพธ์ของ LLM อีกครั้งในอัตราหนึ่งสัปดาห์

ผลลัพธ์

LLM สี่ตัวที่เป็นเป้าหมายไม่ตอบสนองต่อวิธีการของผู้วิจัย และไม่มีผลลัพธ์ที่สามารถรับได้สำหรับ DeepSeek, Hunyuan, GLM และ Liquid

เกี่ยวกับการปลอมตัวของ AI บอทหลายตัว ผู้เขียนระบุว่า:

‘นอกเหนือจากตัวแทนของบุคคลที่หนึ่ง AI หลายระบบส่งคืนเนื้อหาที่เกี่ยวข้องกับ User-Agent ของเบราว์เซอร์ทั่วไป เราได้สังเกตพฤติกรรมนี้ในหกจาก 18 ระบบ AI ที่เรามีข้อมูล User-Agent’

‘ผลลัพธ์นี้ชี้ให้เห็นว่า AI บางระบบสามารถรับข้อมูลเว็บไซต์ผ่านคำขอที่ดูเหมือนกับการร้องขอของเบราว์เซอร์ ซึ่งทำให้การปิดกั้นด้วย User-Agent ยาก’

ERNIE ส่งคืน Baiduspider และอัตลักษณ์ Chrome; Grok รวม Googlebot กับสองตัวแทนเบราว์เซอร์; Solar ใช้เฉพาะอัตลักษณ์เบราว์เซอร์; Qwen ผสม Googlebot กับ Chrome; และ Kimi ถูกเชื่อมโยงกับตัวแทนเบราว์เซอร์หลายตัว

หลายระบบดูเหมือนจะพึ่งพาบอทขุดค้นข้อมูลของบุคคลที่สาม ในความสัมพันธ์ที่ไม่ได้ระบุไว้เสมอไป เนื้อหาที่เชื่อมโยงกับ Googlebot, Bingbot และ Bravebot ถูกส่งคืนโดย 10 จาก 18 ระบบที่วิเคราะห์ บ่อยครั้งในการที่ไม่มีการเชื่อมโยงแบบสาธารณะระหว่างผู้ให้บริการ AI และเครื่องมือค้นหา – แม้ว่าบางลิงก์ เช่น การใช้ Brave ของ Claude จะถูกบันทึกไว้

ผู้เขียนแย้งว่าสิ่งนี้สะท้อนถึงการดูดซึมผลการค้นหาแทนที่จะขุดค้นข้อมูลโดยตรง เนื่องจาก การตรวจสอบ ASN บ่งชี้ว่า траฟฟิกมาจากเครือข่ายค้นหาที่คาดหวัง ไม่ใช่อัตลักษณ์ที่ปลอมตัว

สิ่งนี้ชี้ให้เห็นว่ามีระดับความไม่โปร่งใสเพิ่มเติมในกระบวนการจากเว็บไปยัง AI โดยที่การปิดกั้นบอทขุดค้นข้อมูลที่ทราบอาจไม่หยุดการใช้ข้อมูล และการหลีกเลี่ยงการรวมข้อมูลอาจต้อง เลือกไม่ให้แสดงในผลการค้นหา – ซึ่งเป็นตัวเลือกที่ไม่พึงประสงค์ ในขณะที่ความตึงเครียดระหว่าง SEO แบบดั้งเดิมและค้นหาที่ขับเคลื่อนด้วย LLM ยังคง ไม่ได้รับการแก้ไข

แคชเท่านั้น

ผู้เขียนทดสอบว่าการลบแหล่งที่มาจะส่งผลต่อผลลัพธ์ของ AI ชัตบอทอย่างไร โดยการปิดเว็บไซต์ทดสอบและถามระบบอีกครั้งหลังจากผ่านไปหนึ่งสัปดาห์ ตามรายงาน ผลลัพธ์แสดงให้เห็นว่า AI ชัตบอทหลายตัวยังคงทำซ้ำ “เนื้อหาที่ฝังไว้” หลังจากที่เว็บไซต์ถูกปิดไปหนึ่งสัปดาห์ ซึ่งบ่งชี้ว่าการตอบสนองมาจากข้อมูลที่แคชไว้ ไม่ใช่การดึงข้อมูลสด

ความคงทนถาวรนี้เห็นได้ชัดเจนที่สุดในระบบที่เชื่อมโยงกับเครื่องมือค้นหา โดยที่เนื้อหาที่ถูกดั๊กไว้ก่อนหน้านี้ยังคงสามารถเข้าถึงได้แม้ว่าหน้าเว็บต้นฉบับจะไม่สามารถเข้าถึงได้ – แม้ว่าพฤติกรรมที่คล้ายกันจะสังเกตได้ในระบบที่เชื่อมโยงกับตัวแทนเบราว์เซอร์ ซึ่งบ่งชี้ว่าการแคชอาจขยายไปไกลกว่าแค่เครื่องมือค้นหา

รายงานชี้ให้เห็นว่าเมื่อข้อมูลเข้าไปในแคช ไม่ว่าจะเป็นของ AI ชัตบอทหรือเข้าถึงผ่านดั๊กการค้นหา การลบหน้าเว็บต้นฉบับจะไม่ลบข้อมูลนั้นออกจากผลลัพธ์ที่ตามมา

สรุป

ผู้เขียนยอมรับว่า “การรั่วไหล” บางส่วนจะเกิดขึ้นจากแนวทาง “ซิลโอด” แบบดั้งเดิมนี้ เนื่องจากโทเค็นที่ไม่ซ้ำกันที่มุ่งเป้าไปที่ LLM หนึ่งตัวอาจส่งผลให้ปรากฏในผลการค้นหา (ที่สร้างขึ้นโดยโทเค็น จริง ของตนเอง) ซึ่งจะถูกดูดซึมโดย LLM อีกตัวหนึ่ง ในกรณีเช่นนี้ การกระจายของชนิดนี้ไม่สามารถหลีกเลี่ยงได้ และความตื่นตัวสำหรับการเกิดขึ้นครั้งแรกคือช่วงเวลาที่สำคัญและเป็นตัวบ่งชี้

สิ่งที่ยังคงต้องดูคือระดับที่สามารถนำแนวทางนี้ไปใช้ได้ โดยเฉพาะอย่างยิ่งเนื่องจากตามที่ผู้เขียนสังเกตเห็นว่าหนึ่งจะหมดโทเค็นที่ถูกต้องตามบริบทอย่างรวดเร็ว

อย่างไรก็ตาม สิ่งนี้พลาดประเด็นหลักไปเล็กน้อย เนื่องจากอาจมีขีดจำกัดแม้กระทั่งความกล้าในการบังอาจของบริษัท AI ที่จะบังอาจผ่านหลักฐานที่ชัดเจนเกี่ยวกับนโยบายการขุดค้นข้อมูลของตนเอง นอกจากนี้ หากไม่เช่นนั้น เว้นแต่บริษัทเหล่านั้นจะยอมรับ การล้าง IP ที่มีค่าใช้จ่ายสูงเพื่อปกปิดตัวตนของตน มันจะเพียงพอแล้วที่จะมีองค์กรเดียวที่ระบุและเผยแพร่ SpamHaus ของ IP หรือ ASN ของ AI บอทที่ไม่ซื่อสัตย์; กระบวนการนี้ไม่จำเป็นต้องมีการทำให้เป็นอุตสาหกรรมเพื่อให้ได้ผล

 

เผยแพร่ครั้งแรกวันพฤหัสบดี 14 พฤษภาคม 2026

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai