Anderson의 관점

AI 트래픽을 드러내는 카나리아

Published May 14, 2026

Martin Anderson

AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

새로운 연구에서 연구자들은 웹사이트에 고유한 구문을 숨기고 AI 채팅봇이 그것을 반복하는 것을 포착하여 숨겨진 스크레이핑 파이프라인을 노출하고 일부 가장大的 AI 회사들의 기만적인 관행을 드러냈다.

AI 회사들은 예측된대로 무자비하게 축소될 경쟁에서 우위를 점하기 위해 싸우고 있기 때문에 실제로, 정말로 웹사이트를 스크레이핑하여 훈련 데이터를 얻으려고 한다. 때로는 끊임없이; 종종 자신의 의지에 반하여; 그리고 종종 인간 사용자로 가장하는 가짜 봇으로서, 또는 GoogleBot과 같은 ‘친절한’ 봇으로서, 실제 정체를 AI 데이터 스크레이퍼로 드러내지 않는다.

현재 자동화된 AI 스크레이퍼가 새로운 훈련 데이터를 수집하고 사용자의 즉각적인需求에 대응하기 위해 RAG를 통해 최신 뉴스를 제공할 것으로 예상되며, 이는 1년 내에 인간을 능가할 것으로 추정된다.

이狂적인 데이터 수집은 부분적으로 각 AI 엔티티가 인터넷의 최신 사본을 갖고 있기 위함이며, 점점 더 구식 저장소인 Common Crawl과 같은 저장소가 아닌 실제 인터넷을 스크레이핑하여 데이터를 수집하기 위함이다. 또한, 회사들은 법적 제한이 도래할 것을 두려워하여 IP 세탁을 조기에 진행해야 할 필요가 있다.

추가로, 가능한 많은 사이트를 지속적으로 폴링함으로써, AI 회사들은 현재 부족한 웹 검색과 새로운 상황에 대한 반응 능력을 개선하려고 할 수 있다.

어떤 경우에든지, 이러한 관행이 오랫동안 제어할 수 없고 무질서한 것으로 보인다.

문제는, 현재 AI 회사들이 데이터를 얻기 위해 어떤 수단을 사용하고 있는지 증명하는 것이 쉽지 않다는 것이다.

데이터를 따르라

한 가지 제안은, 스파이, 정보원, 그리고 다른 불법적인 행위를 발견하는 데 사용되는 오래된 방법의 변형이다. 즉, 사용자에게 알려지지 않은 정보를 노출시키고, 그 정보가 어디에서 나타나는지 확인하는 것이다. 만약 그 정보를 아무도 모르면, 정보 유출의 출처가 증명된다.

연구자들의 핵심 아이디어는, 각 방문자에게 약간 다른 버전의 페이지를 제공하고, 채팅봇에게 그 페이지에 대해 질문을 하여, 어떤 버전이 돌아오는지 확인하여, 숨겨진 웹 조회가 답변을 제공한 것을 추적하는 것이다. 출처

이 접근법은 아카데미 시상식위원회에서 2000년대에採用한 반해적 조치에서 볼 수 있다. 즉, 투표 회원들에게 배포되는 시상식용 DVD에 고유한 ID를 디지털로 인쇄하여, 영화가 인터넷에 유출되면 원래 수령인에게 귀속할 수 있다. 이 기술은 스파이 활동에서 바륨 식으로 알려져 있다.

새로운 연구에서, 저자들은 20개의 ‘허니팟’ 도메인을 생성하고, 각 고유한 방문자에게 고유한 토큰을 제공하여, 각 방문자가 다른 사실을 받도록 하였다.

목적은 LLM(인공지능) 스크레이퍼의 실제 정체와 행동을 드러내는 것이었다. 22개의 생산 LLM 시스템에서, 이 기술은 어떤 스크레이퍼가 어떤 LLM을 공급하는지 신뢰성 있게 식별할 수 있었다. 즉, 데이터를 심은 후 약 1-2개월 후에 AI에게 질문을 하면, 고유한 토큰이 돌아올 것이었다.

기만

물론, 이러한 것이 필요하지는 않았을 것이다. 만약 우리가 아직 AI의 ‘와일드 웨스트’ 단계에 있지 않았고, 회사들이 실제로 자신의 행동과 원칙을 지키고 있었다면, 도메인이 데이터 스크레이핑을 금지하는 작은 텍스트 파일을 사용하여 AI 회사들에게 데이터를 스크레이핑하지 말라고 명령할 수 있었을 것이다.

연구자들의 실험에서, 오직 한 개의 AI 회사만이 자신의 행동과 원칙을 존중하는 것으로 나타났다. 즉, DuckDuckGo의 DuckDuckbot은 실제로 자신을 정확하게 표현하고, 대상 도메인이 꺼지거나 도메인의 robots.txt 파일이 AI 스크레이핑을 거부하도록 변경되면 ‘비밀 데이터’를 더 이상 보고하지 않았다.

대부분의 큰 회사들은 대신 일반 브라우저 ID를 가장하여, 퍼플렉시티가 2025년에 시작한 관행과 같이 GoogleBot을 가장했다. 그리고 Kimi는 가장 극단적인 경우로, 많은 사용자 에이전트가 데이터 출력과 관련이 있었다.

많은 시스템은第三方 검색 엔진 스크레이퍼를 사용하는 것으로 나타났으며, 이러한 관계는 항상 공개적으로 알려지지 않았다. Googlebot, Bingbot, Bravebot과 관련된 콘텐츠가 18개의 시스템 중 10개에서 돌아왔으며, 때로는 AI 제공업체와 검색 엔진 사이에 공개적인 연관성이 없는 경우도 있었다.

저자들은 이것이 직접적인 스크레이핑보다는 검색 결과를 摂取하는 것을 나타낸다고 주장한다. 즉, ASN 확인이 트래픽이 예상되는 검색 엔진 네트워크에서 발생했으며, 가짜 정체는 아니었다.

이것은 웹에서 AI로의 파이프라인에서 추가적인 불투명성을 나타낸다. 즉, 알려진 AI 크롤러를 차단하는 것이 데이터 사용을 방지하지 못할 수 있으며, 포함을 피하는 것은 검색 색인에서 완전히 제외하는 것을 의미할 수 있다. 이는 아직 전통적인 SEO와 LLM 기반 검색 사이의 긴장이 해결되지 않은 상황에서 바람직하지 않은 선택이다.

방법

연구자들은 20개의 .com 도메인을 설정하고, 비슷한 웹사이트 템플릿을 사용하여, 각 템플릿에 10개의 플레이스 홀더를 추가하여, 각 방문자에게 고유한 토큰을 제공하였다.

실험에서 사용된 템플릿과 변수 플레이스 홀더의 예시

각각의 고유한 방문자에게는 커스텀 변수가 제공되었다. 이전에 방문한 경우, 이전과 동일한 변수가 다시 제공되었다. 변수는 Python Faker 라이브러리와 랜덤 번호 생성기를 사용하여 생성되었다.

허니팟 도메인은 다양한 색인에 제출되었으며, 다른 도메인에서 링크되었다.

2개월이 지난 후, 연구자들은 대상 AI 채팅봇을 쿼리할 수 있었다.

스크립트는 각 시스템을 API를 통해 쿼리하기 위해 작성되었다. 가능하지 않은 경우, Selenium과 같은 자동화 솔루션을 사용하여 수동 상호작용을 수행하였다.

초기 템플릿 교환 후, 연구자들은 관련된 토큰의 이름을 얻기 위한 보조 프롬프트를 사용하였다.

실험은 세 가지 조건에서 수행되었다. 즉, 웹사이트가 완전히 접근 가능한 경우, 웹사이트가 오프라인인 경우, 그리고 웹사이트가 스크레이핑을 거부하는 경우이다. 이러한 실험은 순서대로 수행되었다.

마지막으로, 모든 사이트가 다시 온라인으로 돌아온 후, 마지막 단계에서는 LLM 출력을 1주일 간격으로 재테스트하였다.

결과

4개의 대상 LLM은 연구자들의 방법에 완전히 저항하여, 결과를 얻을 수 없었다. 즉, DeepSeek, Hunyuan, GLM, 그리고 Liquid에 대한 결과는 얻을 수 없었다.

많은 AI 봇이 비 AI 트래픽을 가장하는 경향이 있는 것으로 나타났다. 저자들은 다음과 같이 말한다.

‘우리는 18개의 AI 시스템 중 6개에서 제1당 선언된 에이전트 외에 제네릭 브라우저 User-Agent 문자열이 반환되는 것을 관찰하였다.

ERNIE는 Baiduspider와 Chrome 정체를 반환하였다. Grok는 Googlebot과 두 개의 브라우저 에이전트를 결합하였다. Solar는 브라우저 정체만 사용하였다. Qwen은 Googlebot과 Chrome을 혼합하였다. 그리고 Kimi는 여러 브라우저 스타일 에이전트와 관련이 있었다.

캐시만

저자들은 소스를 제거하여 채팅봇의 출력에 영향을 미치는지 테스트하였다. 즉, 테스트 사이트를 오프라인으로 두고, 1주일 후에 시스템을 다시 쿼리하였다. 많은 채팅봇이 캐시된 데이터에서 응답을 제공하는 것으로 나타났다.

이것은 검색 엔진 크롤러와 관련된 시스템에서 가장 두드러졌다. 즉, 이전에 색인이 된 콘텐츠는 웹사이트가 더 이상 접근할 수 없는 경우에도 계속 사용할 수 있었다.

이것은 콘텐츠가 캐시에 들어가면, 원래 페이지를 제거하더라도 콘텐츠가 이후의 출력에서 제거되지 않는다는 것을 의미한다.

결론

저자들은 이러한 접근법이 확장 가능하지 않을 수 있으며, 많은 토큰을 생성하여 유지하는 것이 어려울 수 있음을 인정한다. 그러나, 이러한 스키마가 대규모로 구현될 필요는 없다. 즉, 한 개의 조직이 기만적인 AI 봇 IP 또는 ASN의 블랙리스트를 식별하고 공개한다면, 효과적으로 작동할 수 있다.

이러한 기만적인 행위에 대한 증거가 명확해지면, AI 회사들은 자신의 스크레이핑 정책에 대한 거짓말을 계속할 수 없다.

2026년 5월 14일 처음 게시