Góc nhìn Anderson

Chuẩn bị cho Quảng cáo trong Mô hình Ngôn ngữ Lớn

Đã xuất bản 18 tháng 9, 2025

Đã cập nhật 18 tháng 5, 2026

Martin Anderson

Source: ChatGPT-4o and https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

Nghiên cứu mới cho thấy cách quảng cáo có thể sớm được nhúng trực tiếp vào các câu trả lời kiểu ChatGPT – không phải dưới dạng banner hoặc pop-up, mà được dệt vào chính câu trả lời. Một điểm chuẩn mới kiểm tra xem các câu trả lời có thể chứa quảng cáo như thế nào để vẫn hữu ích, đáng tin cậy và có lợi, và có thể yêu cầu sự cân bằng giữa trải nghiệm người dùng chấp nhận được và tỷ lệ nhấp chuột.

Khi sự phổ biến rộng rãi và ngày càng tăng của Mô hình Ngôn ngữ Lớn làm suy yếu các phương pháp quảng cáo truyền thống đã cung cấp năng lượng cho internet gần như từ khi nó được tạo ra, bất kỳ ai quen thuộc với các chiến thuật chiếm lĩnh thị trường của các nhà đầu tư mạo hiểm sẽ tự hỏi bao lâu nữa các bot trò chuyện AI sẽ có thể giữ lại việc bao gồm nội dung quảng cáo trong các câu trả lời của chúng.

Khi Netflix và một loạt các dịch vụ phát trực tuyến đемонстр, chiến lược truyền thống của thời kỳ cáp kết hợp đăng ký trả phí với quảng cáo nhúng (thường được biện minh như một cách để giữ chi phí tiêu dùng thấp) đang giành lại động lực; và sự chuyển dịch towards việc tích hợp quảng cáo trực tiếp vào đầu ra của LLM đang bắt đầu xuất hiện ít suy đoán hơn và nhiều hơn như một người áp dụng tự nhiên của mô hình đó.

Từ bài báo ‘Quảng cáo trực tuyến với LLM: Cơ hội và Thử thách’, một ví dụ khá đại diện về sự chuyển đổi mà hầu hết mọi người đang mong đợi khi LLM kiếm tiền. Nguồn: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

Khả năng bao gồm quảng cáo trong một phương tiện mới đã có những vấn đề đáng kể về độ tin cậy, có thể có vẻ vội vàng; tuy nhiên, quy mô đầu tư vào AI tạo sinh trong 12 tháng qua cho thấy rằng thị trường hiện không được định nghĩa bởi một thái độ thận trọng hoặc cẩn thận; và với những người chơi lớn hơn như OpenAI có thể đang quá mức và cần một khoản đầu tư sớm, lịch sử cho thấy rằng giai đoạn蜜 moon của đầu ra không có quảng cáo có thể đang kết thúc.

GEM-Bench

Với khí hậu này và những yêu cầu kinh doanh trong tâm trí, một bài báo mới thú vị từ Singapore cung cấp điểm chuẩn đầu tiên dành cho giao diện bot trò chuyện AI, cùng với các metric định lượng mới cho những gì có thể chứng minh là một trong những lĩnh vực quảng cáo nổ nhất trong 100 năm.

Có thể là một giả định lạc quan, các tác giả cho rằng có một ranh giới rõ ràng giữa ‘nội dung thực’ và ‘nội dung quảng cáo’, nơi ‘sự phân tâm’ từ câu trả lời tiêu chuẩn thành bản sao quảng cáo khá dễ dàng để nhận ra:

Ví dụ về loại tích hợp quảng cáo có thể xảy ra dưới hai mô hình được nghiên cứu trong bài báo mới. Nguồn: https://arxiv.org/pdf/2509.14221

Nó vẫn còn phải xem liệu các nhà quảng cáo có sẽ, như đã từng là xu hướng của họ, tìm cách để nội dung quảng cáo của họ được tích hợp một cách tinh tế hơn vào đầu ra hơn là trong các ví dụ được đưa ra trong bài báo.

Tuy nhiên, đây là những vấn đề cho sau; hiện tại, lĩnh vực này vẫn còn rất mới mẻ, ngay cả những thuật ngữ cơ bản cũng còn thiếu hoặc chưa được thống nhất.

Bài báo do đó giới thiệu Generative Engine Marketing (GEM) như một khuôn khổ mới để kiếm tiền từ bot trò chuyện dựa trên LLM, bằng cách nhúng quảng cáo liên quan trực tiếp vào các câu trả lời được tạo ra.

Các nhà nghiên cứu xác định Ad-Injected Response (AIR) generation như thách thức trung tâm trong GEM, và cho rằng các điểm chuẩn hiện có không phù hợp để nghiên cứu nó. Để lấp đầy khoảng trống này, họ giới thiệu những gì họ cho là điểm chuẩn đầu tiên được thiết kế cụ thể cho mục đích này.

GEM-Bench bao gồm ba tập dữ liệu được biên soạn bao gồm các kịch bản bot trò chuyện và công cụ tìm kiếm. Nó cũng bao gồm một ontology metric được thiết kế để đánh giá nhiều khía cạnh của sự hài lòng và tương tác của người dùng, cùng với một bộ các phương pháp cơ sở được thực hiện trong một khuôn khổ đa tác nhân mô-đun.

Các tác giả cho rằng trong khi các phương pháp dựa trên lời nhắc đơn giản có thể đạt được các chỉ số tương tác đáng kính, chẳng hạn như tỷ lệ nhấp chuột (CTR) cao, chúng có xu hướng làm giảm sự hài lòng của người dùng. Ngược lại, các phương pháp chèn quảng cáo vào các câu trả lời được tạo ra trước, không có quảng cáo, cho thấy sự cải thiện trong niềm tin và chất lượng câu trả lời – mặc dù với chi phí tính toán cao hơn.

Các giao dịch này, bài báo cho rằng, nhấn mạnh nhu cầu về các kỹ thuật hiệu quả và hiệu suất hơn để tích hợp quảng cáo vào đầu ra tạo sinh.

Bài báo mới có tiêu đề GEM-Bench: Một điểm chuẩn cho Ad-Injected Response Generation trong Generative Engine Marketing, và đến từ bốn nhà nghiên cứu tại Đại học Quốc gia Singapore.

Phương pháp

Phác thảo cho Generative Engine Marketing (GEM) vay mượn từ các nguyên tắc cơ bản của Search Engine Marketing (SEM). SEM truyền thống hoạt động bằng cách khớp các truy vấn với quảng cáo thông qua một đường ống nhiều giai đoạn trong đó các nhà quảng cáo đặt giá cho từ khóa; hệ thống xác định truy vấn nào kích hoạt quảng cáo; hệ thống ước tính khả năng mỗi quảng cáo được nhấp; và sau đó phân bổ vị trí thông qua một cuộc đấu giá cân bằng giữa giá thầu và tương tác dự kiến.

Ngược lại, cách tiếp cận GEM thích nghi các giai đoạn này với LLM, nhưng phải đối mặt với những thách thức mới ở mỗi bước: không có vị trí quảng cáo cố định, vì vậy hệ thống phải quyết định xem một truy vấn có thể chứa quảng cáo và nơi để chèn nó vào văn bản tự do; việc ước tính tỷ lệ nhấp chuột trở nên khó khăn hơn mà không có bố cục cấu trúc; và sự liên quan phải được cân bằng với sự hài lòng của người dùng, vì quảng cáo được dệt trực tiếp vào đầu ra của mô hình chứ không được phục vụ như bản sao độc lập.

Một trong những baseline được nghiên cứu trong công việc, Ad-Chat, đại diện cho một phương pháp đơn giản nơi nội dung quảng cáo được chèn vào lời nhắc hệ thống trước khi tạo ra câu trả lời. Điều này có nghĩa là mô hình tạo ra một câu trả lời với quảng cáo đã được nhúng, được hướng dẫn bởi một chương trình nghị sự được tải trước.

Phương pháp khác, Ad-LLM, được phát triển bởi các tác giả như một phần của điểm chuẩn mới. Ad-LLM đi theo một con đường mô-đun, đầu tiên tạo ra một câu trả lời sạch, không có quảng cáo; chọn một quảng cáo liên quan; xác định điểm chèn tốt nhất dựa trên dòng chảy ngữ nghĩa; và cuối cùng viết lại đầu ra để tích hợp quảng cáo một cách mượt mà:

So sánh giữa Ad-Chat và phương pháp ‘Ad-LLM’ của các tác giả. Ad-Chat tiêm quảng cáo qua lời nhắc hệ thống trước khi tạo ra, với kiểm soát vị trí hạn chế. Ad-LLM tách biệt tạo ra câu trả lời và chèn quảng cáo, chọn điểm chèn dựa trên dòng chảy ngữ nghĩa, và tinh chỉnh kết quả. Cả hai đều được đánh giá bằng các metric GEM-Bench cho sự hài lòng và tương tác.

Trong khi Ad-Chat rẻ hơn và đôi khi thuyết phục hơn, nó có xu hướng giảm niềm tin và độ chính xác. Ad-LLM hoạt động tốt hơn trên các metric sự hài lòng của người dùng, nhưng với chi phí cao hơn.

Dữ liệu

Để tạo ra dữ liệu cho AIR generation, hai loại tập dữ liệu đã được tạo ra ban đầu: một tập dữ liệu truy vấn người dùng (Người dùng) và một cơ sở dữ liệu quảng cáo (AdDB).

Vì các truy vấn người dùng xác định cơ hội quảng cáo trong các câu trả lời của LLM, ‘danh sách quảng cáo’ có thể được cho là tồn tại trong các câu trả lời này, mặc dù điều này được xác định không chỉ bởi tính khả dụng của truy vấn người dùng mà còn bởi mức độ mà hệ thống sẽ tuân theo các quy tắc của mình về việc cân bằng tính toàn vẹn với các yêu cầu của nhà quảng cáo.

Trong mọi trường hợp, quảng cáo sẽ chỉ xuất hiện trong các câu trả lời, ngay cả khi (xem sơ đồ trên) các yêu cầu người dùng có thể được bí mật tăng cường để phù hợp với quá trình phục vụ quảng cáo.

Đối với kịch bản bot trò chuyện, các tác giả đã xây dựng hai tập dữ liệu truy vấn: MT-Human và LM-Market.

MT-Human được rút ra từ phần nhân văn của MT-Bench, một điểm chuẩn đa lượt cho LLM, và chứa các câu hỏi có thể chứa nội dung quảng cáo.

LM-Market được xây dựng từ hơn nửa triệu truy vấn ChatGPT thực tế được thu thập bởi LMSYS-Chat-1M, được lọc cho các lời nhắc liên quan đến tiếp thị bằng tiếng Anh, và được nhóm lại theo chủ đề sử dụng nhúng ngữ nghĩa.

Trong cả hai trường hợp, các truy vấn cuối cùng được chọn thông qua một đường ống nhiều giai đoạn kết hợp tự động nhóm, đánh giá LLM, và xác minh của con người, với mục tiêu xác định các lời nhắc mà việc chèn quảng cáo sẽ tự nhiên và có thể xảy ra.

Để đánh giá chất lượng của các câu trả lời có chứa quảng cáo, GEM định nghĩa một ontology đo lường bao gồm cả sự hài lòng và tương tác của người dùng. Điều này bao gồm các metric định lượng như dòng chảy câu trả lời, đồng nhất, và tỷ lệ nhấp chuột, cũng như các tiêu chuẩn định tính như niềm tin, độ chính xác, và tính tự nhiên – các metric được thiết kế để phản ánh cả mức độ quảng cáo phù hợp với câu trả lời và khả năng người dùng sẽ nhận thức và tương tác với nó.

Về ‘Tính tự nhiên’, bài báo cho biết:

‘[Tính tự nhiên] đo lường mức độ mà việc chèn quảng cáo làm gián đoạn dòng chảy và tính tự nhiên của cuộc trò chuyện, dựa trên tính gián đoạn và tính xác thực. Tính gián đoạn kiểm tra xem quảng cáo có tạo ra một cảm giác ‘nhảy ra’ hoặc ‘bất ngờ’ trong quá trình đọc, làm gián đoạn sự tập trung liên tục của người dùng vào chủ đề.

‘Tính xác thực đánh giá xem quảng cáo có làm suy yếu ‘chạm’ con người hoặc ‘dòng chảy tự nhiên’ của cuộc trò chuyện, làm cho câu trả lời có vẻ cứng nhắc, công thức và ít xác thực hơn.’

Để tạo ra một kịch bản tìm kiếm truyền thống cho giai đoạn thử nghiệm, các tác giả đã tạo ra một tập dữ liệu có tên CA-Prod từ AdsCVLR thương mại, chứa 300.000 cặp truy vấn-quảng cáo, mỗi cặp bao gồm một từ khóa, siêu dữ liệu và một nhãn thủ công đánh dấu sự liên quan:

Từ bài báo gốc, các ví dụ từ tập dữ liệu AdsCVLR, giúp cung cấp tài liệu cho các thử nghiệm của các tác giả. Nguồn: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

Các bản ghi có trường bị thiếu đã được loại bỏ, và chỉ các truy vấn chứa cả quảng cáo tích cực và tiêu cực (xem hình ảnh trên để biết các ví dụ) được giữ lại.

Để tinh chỉnh dữ liệu, quảng cáo được nhóm lại thành sáu nhóm chủ đề (thiết bị sân vườn và vườn, giày dép, đồ dùng gia đình, phụ gia dinh dưỡng, thiết bị Android, và đầm nữ) sử dụng nhúng ngữ nghĩa và nhóm K-means.

Các truy vấn sau đó được gán cho các chủ đề theo quảng cáo tích cực của chúng, với các tập hợp quá thưa thớt hoặc quá dày đặc được loại bỏ, trước khi 120 truy vấn và 2.215 sản phẩm độc đáo cuối cùng được lấy mẫu cho điểm chuẩn.

Thử nghiệm

Để đánh giá hiệu quả của các chiến lược tiêm quảng cáo khác nhau, điểm chuẩn đã giải quyết ba câu hỏi cốt lõi: hiệu quả của mỗi phương pháp trên các metric hài lòng và tương tác được định nghĩa; cách các lựa chọn thiết kế nội bộ trong Ad-LLM có thể ảnh hưởng đến kết quả của nó; và cách chi phí tính toán sẽ so sánh trên các hệ thống.

Các tác giả đã đánh giá Ad-Chat và ba biến thể của đường ống Ad-LLM, mỗi biến thể khác nhau về cách quảng cáo được lấy (hoặc từ lời nhắc hoặc từ câu trả lời được tạo ra) và liệu đầu ra cuối cùng có được viết lại để mượt mà hay không.

Tất cả các phương pháp đều được chạy bằng doubao-1-5-lite-32k làm mô hình cơ sở và được đánh giá bằng gpt-4.1-mini.

Hiệu quả của Ad-Chat và các biến thể Ad-LLM trên các tập dữ liệu MT-Human, LM-Market và CA-Prod. Các metric định lượng bao gồm dòng chảy câu trả lời (RF), sự đồng nhất của câu trả lời (RC), dòng chảy quảng cáo (AF), sự đồng nhất của quảng cáo (AC), tỷ lệ tiêm (IR), tỷ lệ nhấp chuột (CTR) và điểm số tổng thể. Các metric định tính bao gồm độ chính xác, tính tự nhiên, tính cách, niềm tin, nhận thức, nhấp chuột và hiệu suất tổng thể.

Trên tất cả các tập dữ liệu, Ad-LLM đã tạo ra kết quả mạnh mẽ hơn Ad-Chat trên cả hai metric hài lòng và tương tác. Như được hiển thị trong bảng kết quả trên, biến thể Ad-LLM tốt nhất đã cải thiện trên Ad-Chat bằng 8,4%, 1,5% và 3,8% về điểm số định lượng tổng thể; và bằng 10,7%, 10,4% và 8,6% về điểm số định tính cho MT-Human, LM-Market và CA-Prod tương ứng.

Về những kết quả này, các tác giả cho biết:

‘Những kết quả này chứng minh rằng việc tạo ra một câu trả lời thô và sau đó tiêm quảng cáo cho kết quả chất lượng câu trả lời tốt hơn so với cách tiếp cận đơn giản là dựa vào lời nhắc hệ thống.

‘Đối với các chiều tương tác và hài lòng của người dùng cụ thể, Ad-Chat liên tục cho thấy một khoảng cách hiệu suất đáng kể so với các giải pháp Ad-LLM trên tất cả ba tập dữ liệu, đặc biệt là trong các chiều như độ chính xác, tính cách và niềm tin.’

Hơn nữa, Ad-LLM đã cho thấy những lợi ích mạnh nhất trong độ chính xác, tính cách và niềm tin, vượt trội so với Ad-Chat lên đến 17,6%, 23,3% và 17,2% tương ứng. Theo bài báo, những khác biệt này có thể xuất phát từ cách Ad-Chat sử dụng lời nhắc hệ thống để hướng mô hình đến ngôn ngữ cá nhân hóa và quảng cáo hơn – điều mà các tác giả cho rằng có thể dẫn đến một ‘giọng điệu như người bán’ làm giảm độ chính xác và niềm tin.

Ad-Chat cũng tạo ra tỷ lệ tiêm thấp hơn, ngay cả khi được đánh giá trên các truy vấn được chọn cho sự phù hợp của quảng cáo, và các tác giả cho rằng điều này là do sự phụ thuộc vào các tín hiệu lời nhắc (mà họ mô tả là khó kiểm soát).

Trong môi trường tìm kiếm, tuy nhiên, Ad-Chat đã đạt được tỷ lệ nhấp chuột cao hơn 8,6%, và bài báo cho rằng điều này có thể phản ánh lợi thế của việc sử dụng LLM để lấy các ứng viên sản phẩm, thay vì dựa vào nhúng ngữ nghĩa alone:

So sánh hiệu suất tổng thể trên bốn mô hình đánh giá (GPT-4.1-mini, Qwen-max, claude-3-5-haiku, kimi-k2) cho Ad-Chat và ba biến thể Ad-LLM (GI-R, GIR-R, GIR-P) trên các tập dữ liệu MT-Human, LM-Market và CA-Prod. Mặc dù điểm số có thể thay đổi theo mô hình đánh giá, Ad-LLM luôn vượt trội so với Ad-Chat trên tất cả các điều kiện.

Kết quả thứ hai (hiển thị ở trên) cho thấy rằng trên tất cả các tập dữ liệu, các giải pháp Ad-LLM luôn vượt trội so với Ad-Chat trên bốn mô hình đánh giá; GPT-4.1-mini; Qwen-max; Claude-3-5-haiku; và Kimi-k2.

Các mô hình đánh giá này được chọn để khác với mô hình cơ sở doubao-1-5-lite-32k, giúp giảm thiểu sự thiên vị từ sự tương đồng trong gia đình mô hình. GIR-R đứng đầu hoặc đứng thứ hai trong mọi trường hợp, cho thấy sự đồng thuận rộng rãi giữa các mô hình đánh giá về sự vượt trội của Ad-LLM. Sự phân tích trên từng chiều định tính cụ thể theo sát mô hình được thấy trong kết quả trước đó (hiển thị ở trên).

Để kết thúc, bài báo lưu ý rằng cả Ad-Chat và Ad-LLM đòi hỏi nhiều tài nguyên hơn so với các mô hình sáng tạo và hiệu quả hơn, và việc cần sử dụng các tác nhân LLM trong loại giao dịch này có thể đại diện cho một lượng lớn chi phí. Mặc dù một người có thể tưởng tượng rằng các vấn đề về độ trễ (thường quan trọng trong các kịch bản phục vụ quảng cáo) có thể phát sinh từ việc sử dụng LLM như thế này (mặc dù điều này không được đề cập cụ thể trong bài báo).

Trong mọi trường hợp, việc thực hiện chiến lược Ad-Chat của các tác giả (hàng trên trong sơ đồ được hiển thị ở đầu bài báo) đã cung cấp tỷ lệ nhấp chuột cao nhất, mặc dù nó có chi phí LLM cao nhất.

Kết luận

Mặc dù không có gì ngạc nhiên khi các tài liệu sẽ suy đoán về các phương pháp mà LLM có thể chứa quảng cáo, nhưng trên thực tế có rất ít nghiên cứu công khai về chủ đề này; điều này làm cho bài báo hiện tại và những gì có thể được coi là tiền thân của nó trở nên thú vị.

Bất kỳ ai đã từng làm việc với một bộ phận bán hàng quảng cáo, hoặc bán hàng tồn kho, sẽ biết rằng các nhà quảng cáo luôn muốn nhiều hơn – lý tưởng nhất là để quảng cáo được trình bày như nội dung thực tế, không thể phân biệt được với dòng nội dung chính; và họ sẽ trả một khoản phí cao cho điều đó (cùng với chủ sở hữu, người因此 rủi ro mất uy tín và vị thế với người đọc và các loại bên liên quan khác).

Do đó, sẽ rất thú vị khi xem mức độ mà các codicil quảng cáo được đề xuất trong hai bài báo có thể được khuyến khích để di chuyển xa hơn lên một phản hồi LLM và gần hơn với ‘nội dung chính’. Được xuất bản lần đầu vào thứ Năm, ngày 18 tháng 9 năm 2025

Được xuất bản lần đầu vào thứ Năm, ngày 18 tháng 9 năm 2025