Anderson의 관점

검색 결과의 AI 오염이 ‘검색 붕괴’ 위험을 초래한다

Published February 19, 2026

Updated March 28, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

AI 생성 콘텐츠가 웹을 오염시키면서, 문화적 합의를 위한 전장에 새로운 공격 경로가 열리고 있다.

한국 검색 기업이 주도한 연구에 따르면, AI 생성 페이지가 검색 결과를 침범함에 따라, 검색 및 랭킹 파이프라인의 안정성을 훼손하고 시스템을 약화시킨다고 주장합니다. 이는 어떤 정보가 표면화되고 신뢰받을지 결정하기 위해 그러한 랭킹에 의존하는 검색 증강 생성(RAG)과 같은 시스템을 포함합니다. 이로 인해 오해의 소지가 있거나 부정확한 자료가 권위 있는 것으로 취급될 위험이 증가합니다.

연구자들이 이 증후군에 대해 만든 용어는 검색 붕괴(Retrieval Collapse)로, 알려진 위협인 모델 붕괴(AI가 자신의 출력으로 훈련되어 점점 더 나빠지는 현상)와 구별됩니다.

검색 붕괴 시나리오에서는 AI 생성 콘텐츠가 점진적으로 검색 엔진 결과를 지배하여, 답변이 표면적으로는 정확하게 유지되더라도 근본적인 증거 기반이 원본 인간 출처와 분리되는 상황에 이르게 됩니다. 그럼에도 불구하고, 이 ‘뿌리 없는’ 데이터는 검색 결과에서 높은 순위를 차지할 것으로 보입니다*:

‘AI 생성 텍스트의 확산과 함께, 귀속 및 사전 훈련 데이터 품질에 대한 도전 과제가 강화되었습니다. 기존의 키워드 스팸과 달리, 현대의 합성 콘텐츠는 의미론적으로 일관성이 있어 랭킹 시스템에 자연스럽게 녹아들고 파이프라인을 통해 권위 있는 증거로서 전파될 수 있습니다.’

이 논문은 이로 인해 랭킹 신호가 AI가 생성하고 SEO 최적화된 페이지를 선호하는 ‘구조적으로 취약한’ 환경이 조성될 것이라고 주장합니다. 시간이 지남에 따라 교묘한 방식으로, 즉 답변 품질의 명확한 하락을 유발하지 않으면서 인간이 작성한 출처를 대체하게 될 것입니다:

‘웹상의 AI 생성 콘텐츠의 [증가]는 검색 엔진과 검색 증강 생성(RAG) 시스템이 대규모 언어 모델(LLM)이 생성한 증거를 점점 더 많이 소비함에 따라 정보 검색에 대한 구조적 위험을 제시합니다.’

‘우리는 이 생태계 수준의 실패 모드를 검색 붕괴로 규정합니다. 이는 두 단계 과정으로, (1) AI 생성 콘텐츠가 검색 결과를 지배하여 출처 다양성을 침식하고, (2) 저품질 또는 적대적 콘텐츠가 검색 파이프라인에 침투합니다.’

연구자들은 ‘지배’ 단계가 확립되면, 동일한 검색 파이프라인이 의도적인 오염에 더 취약해진다고 주장합니다. 적대적 페이지가 동일한 최적화 메커니즘을 활용하여 가시성을 얻을 수 있기 때문입니다*:

‘검색 붕괴의 틀을 수립함으로써, 이 연구는 합성 콘텐츠가 정보 검색을 어떻게 재구성하는지 이해하는 기반을 마련합니다. 이러한 위험을 완화하기 위해, 우리는 관련성, 사실성 및 출처를 함께 최적화하는 방어적 랭킹 전략으로의 전환을 제안합니다.’

검색 붕괴는 AI가 점점 더 AI 생성 출력을 먹이로 삼는 엔트로피의 ‘복사 효과’에 악의적인 의도라는 층을 추가하기 때문에, 모델 붕괴를 악화시킬 것으로 보입니다. 실시간 검색 결과에서 ‘진실’에 대한 명백한 합의에 영향을 미치는 것 외에도, 부정확성과 공격은 나중에 훈련된 LLM에 권위 있는 출처로서 고정될 수 있습니다.

새로운 연구의 제목은 Retrieval Collapses When AI Pollutes the Web이며, 네이버(Naver) Corporation의 세 명의 연구자로부터 나왔습니다.

방법

AI 생성 콘텐츠가 검색 시스템을 통해 어떻게 전파되는지 테스트하기 위해, 연구자들은 MS MARCO 데이터셋 및 벤치마크에서 1000개의 질의/답변 쌍을 무작위로 샘플링했습니다. 이 데이터셋은 인간이 검증한 참조 답변과 짝을 이루는 개방형 도메인 질문으로 구성되어 있습니다. 이들은 검색을 기반으로 하고 생성된 응답의 사실적 정확성을 평가하는 데 모두 사용되었습니다.

테스트의 각 MS MARCO 질의에 대해, 각 용어에 대한 상위 SEO 결과를 기반으로 Google 검색에서 10개의 웹 문서를 검색하여, 최종적으로 10,000개의 문서 풀을 생성했습니다.

문서의 사실적 유효성은 각 문서를 MS MARCO 기준 진실과 비교하여 평가했으며, GPT-5 Mini를 판단자로 사용했습니다.

콘텐츠 팜 시뮬레이션

콘텐츠 팜과 관련된 (정상적이고 비적대적인) 기사의 품질 수준을 시뮬레이션하기 위해, 저자들은 경제적인 GPT-5 Nano OpenAI 모델을 사용하여 실제로 새로운 합성 기사를 생성했습니다. 이는 콘텐츠 공장들이 사용할 가능성이 있는 ‘저렴한’ 수준의 AI이기 때문입니다. 출력을 평가하는 데 사용된 GPT-5 Mini는 약간 더 능력 있는 모델입니다.

반대로, 적대적 게시물(즉, 허위 정보를 확산시키도록 설계되었거나 허위 정보를 특징으로 하는 콘텐츠)을 시뮬레이션하기 위해 실제 참조 자료는 사용되지 않았습니다. 대신, 샘플의 초안은 기존의 클릭베이트/SEO 생성기로 생성된 후 GPT-5 Nano에 전달되었으며, GPT-5 Nano는 특정 수의 사실을 그럴듯하지만 사실이 아닌 대안으로 대체하는 임무를 받았습니다. GPT-5 Nano는 또한 실험적 맥락의 목적을 위해 의미론적 재랭킹을 수행했습니다.

시간이 지남에 따른 AI 포화 상태를 시뮬레이션하기 위해, 20라운드 오염 과정을 실행했습니다. 이 과정에서는 고정된 10개의 원본 문서 세트에 질의당 하나의 합성 문서가 추가되어 AI 점유율을 0%에서 66.7%로 증가시켰습니다.

SEO 스타일 풀의 경우, 생성기에 ‘SEO 전문가처럼 행동하라’는 지시를 내리고, 검색 가능성을 높이기 위해 원본 문서에서 높은 IDF 키워드를 통합하도록 요청했습니다.

적대적 풀의 경우, 프롬프트는 유창하고 자연스러운 산문을 유지하면서도 명명된 개체와 수치적 세부 사항을 미묘하게 변경하도록 설계되어, 통계적 필터를 트리거하지 않으면서도 사실적 정확성을 조용히 침식하는 문서를 생성했습니다.

지표

실험에는 세 가지 지표가 채택되었습니다: 전체 문서 풀 중 AI 생성 비율을 결정하는 풀 오염률(PCR), 상위 10개 검색 결과 중 AI 출처 비율을 측정하는 노출 오염률(ECR)(실제로 검색 파이프라인에 들어간 것을 나타냄), 그리고 최종 답변에서 인용된 증거 중 합성 비율을 기록하는 인용 오염률(CCR)입니다.

실질적 영향을 조사하기 위해, 검색된 출처의 품질과 최종 답변의 무결성을 모두 테스트했습니다. 정밀도@10(P@10)은 상위 10개 결과 중 MS MARCO 기준 진실과 비교했을 때 실제로 정확한 것이 몇 개인지 포착했으며, 답변 정확도(AA)는 생성된 응답이 동일한 참조 답변과 일치하는지 측정했습니다. 의미가 일관적인지 판단하기 위해 GPT-5 Mini가 사용되었습니다.

테스트

처음에, 저자들은 합성 데이터를 생성하기 위한 자료로 사용되기 전에, SERPS에서 추출한 원본 문서 풀에 대해 그들의 방법을 테스트했습니다. 그리고 그들의 LLM 랭커가 ‘강력한 검색 품질’을 달성하여 BM25 랭커 기준선을 능가했다고 언급합니다.

두 가지 주요 시나리오 테스트 중 첫 번째인 지배와 동질화는 SEO 형태의 합성 문서가 검색 결과에 미치는 방식을 조사한 것입니다:

왼쪽, 시나리오 1에 대한 BM25 및 LLM 랭커 하의 오염 곡선은 풀 오염률(PCR)이 라운드마다 상승하고, 노출 오염률(ECR)과 인용 오염률(CCR)은 합성 문서가 상위 결과로 밀려들어가면서 더 가파르게 증가하는 반면, 답변 정확도(AA)는 대체로 안정적으로 유지됨을 보여줍니다. 오른쪽, 해당 표는 0, 5, 10, 20라운드에 걸쳐 동일한 진행을 수치적으로 보고하며, 두 랭커 모두에 대한 PCR, ECR, CCR 및 AA를 상세히 설명합니다.

왼쪽: 시나리오 1에 대한 BM25 및 LLM 랭커 하의 오염 곡선은 풀 오염률(PCR)이 각 라운드마다 상승하고, 노출 오염률(ECR)과 인용 오염률(CCR)은 합성 문서가 상위 결과로 밀려들어가면서 더 가파르게 증가합니다. 답변 정확도(AA)는 대체로 안정적입니다. 오른쪽: 해당 표는 0, 5, 10, 20라운드에 걸쳐 동일한 진행을 수치적으로 보고하며, 두 랭커 모두에 대한 PCR, ECR, CCR 및 AA를 상세히 설명합니다.

더 많은 AI 작성 페이지가 테스트 환경에 점진적으로 추가됨에 따라, 예상보다 빠르게 상위 검색 결과를 지배하기 시작했습니다. AI 콘텐츠가 사용 가능한 모든 문서의 50%를 차지했을 때, BM25의 상위 10개 결과 중 68% 이상이 이미 AI 생성이었습니다. 그리고 AI 자료의 점유율이 67%로 상승했을 때, 상위 결과의 80% 이상이 AI 출처에서 나왔습니다.

LLM 기반 랭커는 이 방향으로 훨씬 더 강한 경향을 보였습니다. AI 작성 페이지가 전체 풀의 절반만 차지했을 때, 상위 결과의 약 76%가 AI 작성 페이지에서 나왔으며, AI의 존재가 증가함에 따라 BM25보다 더 많이 의존했습니다. 저자들은 다음과 같이 논평합니다:

‘이 패턴은 SEO 최적화 콘텐츠가 랭킹 신호를 불균형적으로 활성화시켜 두 모델 모두가 합성 중심 증거로 빠르게 수렴하게 만든다는 것을 보여줍니다.’

사실적 안정성과 다양성 붕괴 사이의 긴장 관계에 관해, 이 논문은 검색된 증거에서 보여준 ‘극적인’ 변화에도 불구하고 답변 정확도는 안정적으로 유지되거나 오히려 개선되었다고 언급합니다:

‘SEO 문서는 고품질이고 주제에 맞추어져 있기 때문에, 정확도만으로 측정할 때 검색은 건강해 보입니다. 그러나 검색된 증거의 거의 전부가 합성이라는 것은 출처 다양성의 심각한 붕괴를 나타냅니다.

‘이러한 분기는, 다양성 붕괴에도 불구하고 안정적인 정확도로 특징지어지며, 구조적으로 취약한 검색 파이프라인을 드러냅니다: 시스템은 집계 지표에서는 잘 수행되면서도 조용히 인간 작성 콘텐츠에 대한 근거를 잃어가고 있습니다.

‘전반적으로, 고품질 합성 콘텐츠는 검색 파이프라인에 원활하게 통합될 뿐만 아니라 랭킹 신호를 능동적으로 압도하여, BM25와 LLM 랭커 모두가 거의 독점적으로 AI 생성 증거에 의존하게 만듭니다.’

두 번째 시나리오는 오염과 시스템 부패로 명명되었으며, 첫 번째 시나리오와 비교하여 랭커 행동에서 주목할 만한 차이를 드러냈습니다:

<img class=" wp-image-271855" src="https://www.unite.ai/wp-content/uploads/2026/02/fig1b-and-tab1b.jpg" alt="왼쪽, 시나리오 2 결과는 의도적으로 오도하는 페이지가 시스템에 추가될 때 발생하는 상황을 보여줍니다. 이러한 페이지가 더 많이 혼합됨에 따라, BM25는 그 중 일부를 상위 결과에 배치하기 시작합니다. 중간 지점에서는 약 4분의 1까지지만, 실제로 최종 답변에 사용되는 것은 거의 없습니다. 전체 답변 품질은 약간 하락합니다. 오른쪽, 표는 BM25와 LLM 기반 랭커 모두에 대해 동일한 패턴을 숫자로 제시하며, BM25는 일부 오도하는 페이지를 상위

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse

Martin Anderson

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai

Unite.AI

검색 결과의 AI 오염이 ‘검색 붕괴’ 위험을 초래한다

방법

콘텐츠 팜 시뮬레이션

지표

테스트

You may like