Anderson의 관점

AI 오염이 검색 결과를 위협하는 ‘검색 붕괴’의 위험

Published February 19, 2026

Updated April 1, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

AI 콘텐츠가 웹을 오염시키면서 새로운 공격 벡터가 문화적 합의를 위한 전장에서 열리고 있다.

한국의 검색 회사에서 수행한 연구에 따르면, AI 생성 페이지가 검색 결과에 침투함에 따라, 검색과 랭킹 파이프라인의 안정성을 훼손하고, Retrieval-Augmented Generation (RAG)과 같은 시스템의 약점을 증가시켜, 잘못된 또는 부정확한 자료가 권위적인 것으로 간주될 위험이 증가한다.

연구자들은 이 현상을 검색 붕괴라고 명명하였으며, 이는 기존의 모델 붕괴와는 다르다. 모델 붕괴는 AI가 자신의 출력을 학습하여 점점 더 나쁘게 되는 현상이다.

검색 붕괴 시나리오에서, AI 생성 콘텐츠는 점점 더 검색 엔진 결과를 지배하게 되며, 심지어 정답이 표면적으로 정확하더라도, 기본적인 증거 기반이 원래 인간 소스에서 분리된다. 그러나 이러한 ‘근본 없는’ 데이터는 검색 결과에서 높은 순위를 차지할 것으로 보인다:

‘AI 생성 텍스트의 확산으로 인해, 출처 및 사전 학습 데이터 품질에 대한 도전이 심화되고 있다. 전통적인 키워드 스팸과는 달리, 현대의 합성 콘텐츠는 의미적으로 일관적이며, 랭킹 시스템에 혼합되어 권위적인 증거로 전파된다.’

이 논문은 이것이 ‘구조적으로 취약한’ 환경을 생성할 것이라고 주장하며, 랭킹 신호는 SEO 최적화된 페이지를 선호하여 시간이 지남에 따라 인간 작성 소스를 차츰 대체한다.

‘검색 엔진과 RAG 시스템은 점점 더 대규모 언어 모델(LLM)의 증거를 소비함에 따라, 웹상의 AI 생성 콘텐츠는 정보 검색에 대한 구조적인 위험을 제기한다.’

‘우리는 이 생태계 수준의 실패 모드를 검색 붕괴라고 특징지으며, 2단계 과정으로서 (1) AI 생성 콘텐츠가 검색 결과를 지배하며 출처 다양성을 침식하고, (2) 저품질 또는 적대적 콘텐츠가 검색 파이프라인에 침투한다.’

연구자들은 일단 ‘지배’ 단계가 확립되면, 동일한 검색 파이프라인이 의도적인 오염에 더 취약해진다고 주장하며, 적대적 페이지는 동일한 최적화 메커니즘을 이용하여 가시성을 얻을 수 있다:

‘검색 붕괴 프레임워크를 설정함으로써, 이 연구는 합성 콘텐츠가 정보 검색을 어떻게 재구성하는지 이해하는 기초를 마련한다. 이러한 위험을 완화하기 위해, 우리는 관련성, 사실성, 및 출처를 공동으로 최적화하는 방어적 랭킹 전략으로의 전환을 제안한다.’

검색 붕괴는 모델 붕괴를悪화시키며, 이는 엔트로피의 ‘복사 효과’에恶意적인 의도를 추가하는 것이다. 실제 시간 검색 결과에서 ‘진실’에 대한 명백한 합의에 영향을 미칠 뿐만 아니라, 부정확성과 공격은 나중에 훈련된 LLM에서 권위적인 출처로 간주될 수 있다.

새로운 연구는 웹이 AI로 오염될 때 검색 붕괴라고 제목이 붙여졌으며, Naver Corporation의 세 명의 연구자에 의해 수행되었다.

방법

검색 시스템을 통해 AI 생성 콘텐츠가 어떻게 전파하는지 테스트하기 위해, 연구자들은 MS MARCO 데이터셋과 벤치마크에서 1000개의 쿼리/답변 쌍을 무작위로 샘플링하였다. 이것은 검색을 기반으로 하며, 생성된 응답의 사실적 정확성을 평가하기 위해 사용되었다.

각 MS MARCO 쿼리에 대해, 10개의 웹 문서가 Google 검색에서 상위 랭킹 SEO 결과를 기반으로 검색되었으며, 총 10,000개의 문서를 생성하였다.

문서의 사실적 유효성은 MS MARCO 기본 사실과 비교하여 평가되었으며, GPT-5 Mini를 판단자로 사용하였다.

콘텐츠 팜 시뮬레이션

콘텐츠 팜과 관련된 일반적인 비적대적인 文章의 품질 수준을 시뮬레이션하기 위해, 저자는 GPT-5 Nano OpenAI 모델을 사용하여 새로운 합성 文章을 생성하였다. GPT-5 Mini는 출력을 평가하기 위해 사용되었다.

반대로, 적대적 게시물(즉, 잘못된 정보를 퍼뜨리거나 잘못된 정보를 포함하는 콘텐츠)을 시뮬레이션하기 위해, 실제 참조는 사용되지 않았다. 대신, 샘플의 초안은 일반적인 클릭베이트/SEO 생성기를 사용하여 생성되었으며, затем GPT-5 Nano에 의해 처리되어 특정 수의 사실을 허위로 대체하였다. GPT-5 Nano는 또한 실험적 맥락을 위해 의미적 재랭킹을 수행하였다.

AI 포화도를 시간이 지남에 따라 시뮬레이션하기 위해, 20라운드의 오염 프로세스가 실행되었으며, 여기서 한 합성 문서가 각 쿼리당 원본 문서 집합에 추가되어 AI의 비율을 0%에서 66.7%로 증가시켰다.

SEO 스타일 풀에서, 생성기는 ‘SEO 전문가로 행동하도록’ 지시받았으며, 원본 문서에서 고 IDF 키워드를 통합하여 검색 가능성을 높였다.

적대적 풀에서, 프롬프트는 자연스러운 문장을 유지하면서도 명명된 엔티티와 숫자 세부 정보를 조작하여 통계적 필터를 통과하지 못하는 문서를 생성하였다.

메트릭

세 가지 메트릭이 실험을 위해 채택되었다: 풀 오염률(PCR), 문서 풀의 전체 비율이 AI 생성된 것을 결정하기 위해; 노출 오염률(ECR), 상위 10개 검색 결과가 AI 소스에서 왔는지 측정하기 위해; 시트 오염률(CCR), 최종 답변에서 인용된 증거가 합성된 것을 기록하기 위해.

실제적인 영향을 조사하기 위해, 검색된 소스의 품질과 최종 답변의 무결성이 테스트되었다. 정밀도@10(P@10)은 상위 10개 결과 중 실제로 올바른 결과가 얼마나 되는지 측정하였으며; 답변 정확도(AA)는 생성된 응답이 참조 답변과 일치하는지 측정하였다. GPT-5 Mini는 의미가 일치하는지 판단하기 위해 사용되었다.

테스트

最初에, 저자들은 SERPS에서 추출된 문서 풀에 대해 자신의 방법을 테스트하였으며, 이것은 합성 데이터를 생성하기 전에 사용되었다. 저자들은 자신의 LLM 랭커가 ‘강력한 검색 품질’을 달성했으며, BM25 랭커 기준선을 능가했다고 주장한다.

두 가지 주요 시나리오 테스트 중 첫 번째는 지배와 동질화라고 명명되었으며, SEO 형태의 합성 문서가 검색 결과에 미치는 영향을 조사하였다:

왼쪽: 시나리오 1의 오염 곡선은 BM25와 LLM 랭커에서 Pool Contamination Rate (PCR)가 라운드마다 증가하며, Exposure Contamination Rate (ECR)와 Citation Contamination Rate (CCR)가 더 가파르게 증가하는 것을 보여준다. 오른쪽:対応하는 표는 동일한 진행을 숫자로 나타낸다.

AI 작성된 페이지가 점점 더 상위 검색 결과를 지배하기 시작했으며, 예상보다 더 빠르게 진행되었다. AI 콘텐츠가 전체 문서의 50%를 차지할 때, BM25의 상위 10개 결과 중 68% 이상이 이미 AI 생성된 것이었다. AI 자료의 비율이 67%로 증가했을 때, 그 상위 결과 중 80% 이상이 AI 소스에서 왔다.

LLM 기반 랭커는 이 방향으로 더 강한 경향을 보여주었으며, AI 작성된 페이지가 전체 풀의 절반을 차지할 때 약 76%의 상위 결과가 AI 작성된 페이지에서 나왔다. 또한 AI 자료의 존재가 증가함에 따라 BM25보다 더 많이 의존하였다. 저자들은 다음과 같이 주장한다:

‘이 패턴은 SEO 최적화된 콘텐츠가 랭킹 신호를 과도하게 활성화시켜, 두 모델 모두 합성된 증거로 빠르게 수렴한다는 것을 보여준다.’

사실적 안정성과 다양성 붕괴 사이의 긴장에 대해, 논문은 다음과 같이 주장한다:

‘검색된 증거에서 드라마틱한 변화에도 불구하고, 답변 정확도는 안정적으로 유지되거나 개선된다. 그러나 검색된 거의 모든 증거는 합성된 것이며, 이는 출처 다양성의 심각한 붕괴를 나타낸다.’

‘이 분리, 즉 정확도에 따른 안정성과 다양성 붕괴는 구조적으로 취약한 검색 파이프라인을 나타낸다. 시스템은 집계된 지표에서 잘 작동하지만, 인간 작성 콘텐츠에 대한 기반을 조용히 잃어버린다.’

‘전체적으로, 고품질의 합성 콘텐츠는 검색 파이프라인에 무해하게 통합되며, 실제로 랭킹 신호를 압도하여, BM25와 LLM 랭커 모두 거의 독점적으로 AI 생성된 증거에 의존하게 된다.’

두 번째 시나리오는 오염과 시스템 부패라고 명명되었으며, 첫 번째 시나리오와 비교하여 랭커 동작에서 현저한 차이를 보여주었다:

왼쪽: 시나리오 2의 결과는 의도적으로 오도하는 페이지가 시스템에 추가될 때 발생하는 것을 보여준다. 오른쪽,표는 동일한 패턴을 숫자로 나타낸다.

LLM 기반 랭커는 의도적으로 오도하는 페이지를 거의 필터링出了 반면, BM25는 일부를 상위 결과에 포함시켰다.
저자들은 다음과 같이 주장한다:

‘시나리오 1과 비교하여, 시나리오 2는 적대적 오염이 검색 단계에서 부정적인 영향을 미치며, 이는 랭커와 상관없이 종단간 성능에 악영향을 미친다. 이는 경량 검색기에 의존할 때 가장 심각하다.’

저자들은 다음과 같이 결론을 내린다:

‘검색 단계에서 재랭킹하는 것은 너무 늦은 접근법이며, 摂取 단계 필터를 고려해야 한다. 출처 그래프와 복잡도 필터를 사용할 수 있다.’

저자들은 다음과 같이 강조한다:

‘[Agentic AI가 콘텐츠를 자율적으로 게시하기 시작함에 따라,] 방어 메커니즘은 정적 텍스트 분석에서 행동적 지문 분석으로 진화해야 하며, 고 엔트로피, 저 사실성 스트림을 시스템적으로 생성하는 에이전트를 식별하고 격리해야 한다.’

결론

2026년을 위한 가장 중요한 필요성 중 하나는 새로운 또는 개선된 정보 출처 방법론을 설정하는 것이다. 복잡한 자격증 체계는 출판사에서 인프라스트럭처 변경을 요구하며, 공중 교육이 이러한 체계가 무엇을 의미하며, 어떻게 사용하는지에 대해 설명해야 한다.

보다 간단한 해결책이 필요하며, 아직 발견되지 않았다. 이는 긴급한 임무이다. 왜냐하면 이 시대는 1822년 사진이 발명된 이래, 그리고 제2차 세계 대전 이전의 몇십 년 동안의 선전으로 인해, 진실에 대한 공중 합의의 가장 중요한 전환점이 될 수 있기 때문이다.

* 저자의 인라인 인용을 선택적으로 필요한 경우 하이퍼링크로 변환한 결과입니다.

2026년 2월 19일 처음 게시되었습니다.

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

AI 오염이 검색 결과를 위협하는 ‘검색 붕괴’의 위험

방법

콘텐츠 팜 시뮬레이션

메트릭

테스트

결론

You may like