Anderson의 관점

대형 언어 모델에서 광고 준비하기

Published September 18, 2025

Updated April 2, 2026

Martin Anderson

Source: ChatGPT-4o and https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

새로운 연구에 따르면 광고가 곧 ChatGPT 스타일의 답변에 직접 삽입될 수 있으며, 배너나 팝업이 아닌 응답 자체에織入될 수 있다. 새로운 벤치마크는 이러한 광고가 삽입된 응답이 유용하고, 믿을 수 있으며, 수익성이 있는지 테스트하며, 사용자 경험과 클릭률 사이에서 트레이드오프가 필요할 수 있다.

대형 언어 모델의 广泛하고 증가하는 인기가 전통적인 광고 방법을 약화시키고 있으며, 이 방법은 거의 인터넷의 시작부터 인터넷을 구동해 왔기 때문에, 벤처 자본가들의 시장 공략 전략에 익숙한 사람들은 AI 챗봇이 응답에 광고 콘텐츠를 포함하지 않는 기간이 얼마나 더 지속될지 궁금해할 것이다.

넷플릭스와 확장되는 스트리밍 서비스의 목록은 전통적인 유료 구독과 광고의 조합을 보여주고 있으며, 이는 소비자 비용을 낮추는 방법으로 정당화되는 경우가 많다. 이러한 전략은 케이블 시대 전략의 부흥을示しており, LLM 출력에 광고를 직접 포함시키는 전환은 추측보다 자연스러운 모델의 채택으로 보인다.

논문 ‘Online Advertisements with LLMs: Opportunities and Challenges’에서 대부분의 사람들이 기대하는 LLM의 수익화 전환의 대표적인 예 Source: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

신뢰성에 대한既存의 문제가 있는 새로운 매체에 광고를 포함시키는 것은 조급한 것으로 보일 수 있다. 그러나 최근 12개월 동안 생성적 AI에 대한 투자 규모는 현재 시장 분위기가 신중하거나謹慎하지 않음을示唆한다. 또한 OpenAI와 같은 대형 기업은 과도한 부채를 가지고 있으며, 大量 투자에 대한 早期 수익을 필요로 하므로, 광고가 없는 출력의 허니문 기간이 끝나고 있는 것으로 보인다.

GEM-Bench

이러한 氣候와 비즈니스 제안을 염두에 두고, 싱가포르의 새로운 논문은 AI 챗봇 인터페이스에 대한 첫 번째 벤치마크를 제시하며, 가장 폭발적인 광고 분야 중 하나가 될 수 있는 새로운 양적 지표를 제공한다.

저자들은 ‘진짜’ 콘텐츠와 광고 콘텐츠 사이에 명확한 구분이 있다고 가정하며, 표준 응답에서 마케팅 복사본으로의 ‘전환’은 khá 쉽게 식별할 수 있다.

새로운 논문에서 연구된 두 가지 모델에 따른 광고 통합의 예 Source: https://arxiv.org/pdf/2509.14221

광고주들은 자신의 광고 콘텐츠를 출력에보다 미묘하게 통합시키려고 할 수 있다.

그러나 이러한 문제는 나중에 해결할 수 있다. 현재 이 분야는 매우 초기 단계이므로, 기본적인 용어조차 부족하거나 정립되지 않은 상태이다.

따라서 이 논문은 LLM 기반 챗봇을 수익화하기 위한 새로운 프레임워크인 생성 엔진 마케팅(GEM)을 도입한다. 이는 관련 광고를 직접 생성된 응답에 삽입하는 방식이다.

연구자들은 광고 삽입 응답(AIR) 생성을 GEM의 핵심 도전으로 식별하며, 기존 벤치마크는 이를 연구하기에 적합하지 않다고 주장한다. 이를 채우기 위해, mereka는 이 목적을 위한 첫 번째 벤치마크를 주장하는 GEM-Bench를 도입한다.

GEM-Bench는 챗봇과 검색 엔진 시나리오를 포함하는 세 가지 커리된 데이터셋으로 구성되며, 사용자 만족도와 참여도를 평가하기 위한 측정 온톨로지와 모듈러 멀티 에이전트 프레임워크 내에서 구현된 기준 방법이 포함된다.

저자들은 단순한 프롬프트 기반 방법은 존경할 만한 참여 지표를 달성할 수 있지만, 사용자 만족도를 저하한다고 주장한다. 반면, 광고를 사전 생성된 광고가 없는 응답에 삽입하는 접근 방식은 신뢰도와 응답 품질을 개선하지만, 더 큰 계산 오버헤드가 발생한다.

이러한 트레이드오프는, 논문은, 생성 출력에 광고를 통합하기 위한 더 효과적이고 효율적인 기술의 필요성을 강조한다.

새로운 연구는 GEM-Bench: 생성 엔진 마케팅 내에서 광고 삽입 응답 생성을 위한 벤치마크라는 제목으로, 싱가포르 국립 대학의 네 명의 연구자에 의해 수행되었다.

방법

생성 엔진 마케팅(GEM)의 개요는 검색 엔진 마케팅(SEM)의 기본 원칙을 차용한다. 전통적인 SEM은 쿼리와 광고를 다단계 파이프라인을 통해 일치시키는 방식으로 작동한다. 여기서 광고주는 키워드에 입찰하며, 시스템은 쿼리가 광고를 트리거하는지 식별하며, 각 광고의 클릭 가능성을 추정하며, 예측된 참여도와 입찰을 균형을 이루는 경매를 통해 배치한다.

반면, GEM 접근 방식은 LLM에 이러한 단계를 적용하지만, 각 단계에서 새로운 도전을 직면한다. 고정된 광고 슬롯이 없으므로, 시스템은 쿼리가 광고를 수용할 수 있는지 여부와 자유 형식 텍스트에 어디에 광고를 삽입할지 결정해야 한다. 클릭률을 추정하는 것이 구조화된 레이아웃 없이 더 어려워지며, 관련성을 사용자 만족도와 균형을 이루어야 한다. 이는 광고가 별도의 복사본으로 제공되지 않고 모델의 출력에 직접織入되기 때문이다.

이 연구에서 조사된 기준선 중 하나인 Ad-Chat는 광고 콘텐츠를 시스템 프롬프트에 삽입하여 모델이 광고가 이미 삽입된 답변을 생성하도록 하는 단순한 방법을 나타낸다.

다른 접근 방식인 Ad-LLM는 저자들이 새로운 벤치마크의 일부로 개발한 것으로, 모듈러 경로를 따르며, 먼저 깨끗한 광고가 없는 답변을 생성한 다음, 관련 광고를 선택하며, 의미 흐름에 따라 최상의 삽입 지점을 식별하며, 최종적으로 출력을 광고를 원활하게 통합하기 위해 다시 작성한다.

Ad-Chat과 저자들의 ‘Ad-LLM’ 방법의 비교. Ad-Chat은 생성 이전에 시스템 프롬프트를 통해 광고를 삽입하며, 제한된 배치 제어가 가능하다. Ad-LLM은 응답 생성과 광고 삽입을 분리하며, 의미 흐름에 따라 삽입 지점을 선택하며, 결과를 정제한다. 두 방법 모두 GEM-Bench 지표를 사용하여 만족도와 참여도를 평가한다.

Ad-Chat은 더 저렴하고 때때로 더 설득력 있지만, 신뢰도와 정확도를 저하한다. Ad-LLM은 사용자 만족도 지표에서 더 나은 성능을 보이지만, 더 큰 계산 비용이 발생한다.

데이터

AIR 생성을 위해, 두 가지 유형의 데이터셋이最初에 생성되었다. 사용자 쿼리 세트(사용자)와 광고 데이터베이스(AdDB)이다.

사용자 쿼리는 LLM의 응답에서 광고 기회를 정의하므로, ‘광고 재고’는 이러한 쿼리와 시스템이 자신의 규칙을 따르는 정도에 의해 정의될 수 있다.

어떤 경우에든, 광고는 응답에만 나타날 것이다. 사용자 요청은 광고 제공 프로세스를 수용하기 위해 비밀리에 보강될 수 있다(위의 스키마 참조).

챗봇 시나리오를 위해, 저자들은 두 가지 쿼리 데이터셋을 구축했다. MT-Human과 LM-Market이다.

MT-Human은 LLM을 위한 다중 회전 벤치마크인 MT-Bench의 인문학 부분에서 가져왔으며, 광고 콘텐츠를 수용할 가능성이 있는 질문을 포함한다.

LM-Market는 LMSYS-Chat-1M에서 수집된 50만 개 이상의 실제 ChatGPT 쿼리에서 구축되었으며, 영어 마케팅 관련 프롬프트를 필터링하고, 의미 임베딩을 사용하여 주제별로 클러스터링했다.

둘 다에서, 최종 쿼리는 자동 클러스터링, LLM 스코어링, 인간 검증을 결합한 다단계 파이프라인을 통해 선택되었으며, 광고 삽입이 자연스럽고 가능할 수 있는 프롬프트를 식별하는 것이 목표였다.

광고가 삽입된 응답의 품질을 평가하기 위해, GEM은 사용자 만족도와 참여도를 포함하는 측정 온톨로지를 정의한다. 이는 응답 흐름, 일관성, 클릭률을 포함한 양적 지표와 신뢰도, 정확성, 자연스러움을 포함한 질적 표준을 포함한다.

‘자연스러움’에 대해, 논문은 다음과 같이 말한다:

‘자연스러움은 광고 삽입이 대화의 흐름과 자연스러움을 얼마나 방해하는지 측정하며, 이는erruptiveness와 신뢰성을 기반으로 한다. Interruptiveness는 광고가 사용자의 주의를 끄는가, 주제에서 사용자의 연속적인 집중을 방해하는가를 조사한다.

‘신뢰성은 광고가 대화의 ‘인간적인 감각’이나 ‘자연스러운 흐름’을 약화시키는지, 응답을僵硬하고 공식적인 것으로 만들고, 덜 진실한 것으로 만들는지 평가한다.’

전통적인 검색 엔진 시나리오를 테스트 단계에서 생성하기 위해, 저자들은 AdsCVLR 상업 코퍼스에서 CA-Prod라는 데이터셋을 생성했다. 이는 키워드, 메타데이터, 및 수동 레이블을 포함하는 30만 개의 쿼리-광고 쌍으로 구성된다.

원본 논문에서 AdsCVLR 데이터셋의 예 Source: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

필드가 누락된 레코드는 제거되었으며, 양itive와 음ative 광고를 모두 포함하는 쿼리만 유지되었다.

데이터를 정제하기 위해, 광고는 의미 임베딩과 K-평균 클러스터링을 사용하여 여섯 가지 주제 그룹(잔디 및 정원 장비, 슬립온 신발, 가정 용품, 영양 보충제, 안드로이드 장치, 및 여성 드레스)으로 클러스터링되었다.

쿼리는 긍정적인 광고에 따라 주제에 할당되었으며, 너무疏 또는 조밀한 세트는 제외되었으며, 최종적으로 120개의 쿼리와 2,215개의 고유한 제품이 벤치마크를 위해 샘플링되었다.

테스트

광고 삽입 전략의 성능을 평가하기 위해, 벤치마크는 세 가지 핵심 질문을 다루었다. 각 방법의 효과는 정의된 만족도와 참여도 지표에 대해 어떻게 되는지, Ad-LLM 내부 설계 선택이 결과에 어떻게 영향을 미치는지, 그리고 계산 비용은 시스템 전반에 걸쳐 어떻게 비교되는지였다.

저자들은 Ad-Chat과 Ad-LLM 파이프라인의 세 가지 변형을 평가했으며, 각 변형은 광고를 검색하는 방법과 최종 출력을 유창하게 다시 작성하는지 여부에 따라 달랐다.

모든 방법은 doubao-1-5-lite-32k를 기본 모델로 사용하여 실행되었으며, gpt-4.1-mini를 사용하여 평가되었다.

Ad-Chat과 Ad-LLM 변형의 효과성, MT-Human, LM-Market, 및 CA-Prod 데이터셋 전반에 걸쳐. 양적 지표에는 응답 흐름, 응답 일관성, 광고 흐름, 광고 일관성, 삽입률, 클릭률, 및 전체 점수가 포함된다. 질적 지표에는 정확성, 자연스러움, 개인성, 신뢰도, 인식, 클릭, 및 전체 성능이 포함된다.

세 가지 데이터셋 모두에서, Ad-LLM은 만족도와 참여도 측면에서 Ad-Chat보다 더 나은 결과를 보여주었다. 위의 결과 표에서 볼 수 있듯이, 최상의 Ad-LLM 변형은 MT-Human, LM-Market, 및 CA-Prod에서 각각 8.4%, 1.5%, 및 3.8%의 양적 점수에서 Ad-Chat을超過했으며, 질적 점수에서는 10.7%, 10.4%, 및 8.6%를超過했다.

이러한 결과에 대해, 저자들은 다음과 같이 말한다:

‘이 결과는 원시 응답을 생성한 후 광고를 삽입하는 것이, 시스템 프롬프트 삽입만을 의존하는 더 단순한 접근 방식보다 응답 품질이 더 좋음을 보여준다.’

‘특정 사용자 만족도와 참여도 차원에서, Ad-Chat은 세 가지 데이터셋 모두에서 Ad-LLM 솔루션과 비교하여 상당한 성능 격차를 보인다. 특히 정확성, 개인성, 및 신뢰도와 같은 차원에서 그렇다.’

さらに, Ad-LLM은 정확성, 개인성, 및 신뢰도에서 가장 큰 개선을 보였으며, 각각 최대 17.6%, 23.3%, 및 17.2%의 차이를 보였다. 논문에 따르면, 이러한 차이는 Ad-Chat이 더 개인화되고 홍보적인 언어로 모델을 유도하는 시스템 프롬프트를 사용하는 방식에 기인할 수 있다. 이는 ‘판매원 같은’ 톤을 생성하여 정확성과 신뢰도를 저하할 수 있다.

Ad-Chat은 또한 더 낮은 삽입률을 생성했으며, 이는 쿼리 선택의 어려움과 관련이 있을 수 있다.

검색 엔진 설정에서, Ad-Chat은 8.6% 더 높은 클릭률을 달성했으며, 이는 LLM을 사용하여 제품 후보를 검색하는 것의 이점을 반영할 수 있다.

Ad-Chat과 세 가지 Ad-LLM 변형의 전체 성능 점수, MT-Human, LM-Market, 및 CA-Prod 데이터셋에서 네 가지 판단 모델(GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2)을 사용하여 평가한 결과

두 번째 결과 표(위 참조)는 Ad-LLM 솔루션이 네 가지 판단 모델 모두에서 Ad-Chat을超過하며, 모든 조건에서 일관된 성능을 보인다.

이러한 판단 모델은 기본 모델과 다른 모델을 선택하여 모델 패밀리 정렬으로 인한 편향을 줄였다. GIR-R은 모든 경우에서 첫 번째 또는 두 번째를 차지하며, 판단 모델 간에 Ad-LLM의 우수성을广泛하게 인정하고 있다.

개별 질적 차원에 대한 분해는 이전 결과(위 참조)와 유사한 패턴을 따른다.

마지막으로, 논문은 Ad-Chat과 Ad-LLM 모두 더 혁신적이고 효과적인 모델보다 더 많은 리소스를 필요로 하며, 이러한 종류의 트랜잭션에서 LLM 에이전트를 사용하는 필요성이重大한 오버헤드를 나타낼 수 있음을 지적한다. 일반적으로 광고 제공 시나리오에서 중요한 지연 문제가 발생할 수 있다(논문에서具体적으로 다루지 않음).

어떤 경우에든, 저자들의 Ad-Chat 전략 구현(위의 스키마의 상단 행)은最高의 클릭률을 제공했으며, 가장 높은 관련 LLM 비용을 가졌다.

결론

LLM이 광고를 포함할 수 있는 방법에 대한 연구는문학에서 드문 것으로, 이는 현재의 논문과, 합리적으로解釋할 수 있는 이전의 논문이 관심을 끌게 한다.

어떤 경우에든, 광고 판매 부서나 재고를 판매하는 사람들과 일해 본 사람들은 광고주가 항상 더 많은 것을 원하며, 이상적으로는 광고를 사실적인 콘텐츠로 표시하고 싶어한다는 것을 알 것이다. 이는 호스트 콘텐츠 스트림에서 구별할 수 없도록 하는 것이다. 또한 호스트는 신뢰성과 독자 및 기타 이해관계자와의 지위에 대한 위험을冒한다.

따라서, 두 논문에서 상상된 광고가 LLM의 응답에 얼마나, 그리고 어느 정도까지 삽입될 수 있는지 interessant할 것이다.

2025년 9월 18일 처음 게시됨