Góc nhìn Anderson

Nghiên cứu mới đề xuất Quảng cáo Cá nhân hóa Thực sự

mm
A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

Trong một định nghĩa lại của ‘tự quảng cáo’, một phương pháp mới khai thác các nhấp chuột của người dùng để tạo ra quảng cáo web tùy chỉnh dựa trên lịch sử riêng của họ.

 

Mặc dù các cơ quan quảng cáo đang nỗ lực bác bỏ ý tưởng rằng các kênh quảng cáo tồn tại có thể phục vụ quảng cáo dựa trên những gì bạn vừa nói trong sự thoải mái của ngôi nhà của mình, nhưng mức độ ‘cá nhân hóa’ được thể hiện bởi quảng cáo trên các trang web và ứng dụng mạng xã hội đã thu hút tiêu đề trong những năm gần đây.

Kịch bản lý tưởng cho nhà quảng cáo luôn là quảng cáo được phục vụ phải là ‘phù hợp chính xác’ với người xem. Trong giới hạn của phản ứng công khai về theo dõi trực tuyến và bất kỳ biện pháp phòng ngừa mà người dùng có thể đã cài đặt để chống lại việc theo dõi này, generative AI (bỏ qua nỗi sợ hãi xung quanh LLM quảng cáo trong một thế giới sau tìm kiếm) hoàn toàn có khả năng sản xuất hình ảnh quảng cáo và bản sao nhanh chóng cho việc triển khai thời gian thực.

Tuy nhiên, trọng tâm chính của nghiên cứu và phần lớn các triển khai trong dòng này cho đến nay đã dựa trên thống kê sử dụng tổng hợp, vì vậy bất kỳ quảng cáo nào được tạo cho người xem sẽ dựa trên nhóm đồng nhất được đoán của người xem, chứ không phải lịch sử duy nhất của họ.

Bây giờ, một sự hợp tác nghiên cứu mới giữa Trung Quốc và Mỹ trình bày một hệ thống để tạo ra hình ảnh quảng cáo và văn bản cho người dùng cá nhân bằng cách học hỏi từ các nhấp chuột trong quá khứ của họ khi đăng nhập vào một trang web, vượt ra ngoài các giả định dựa trên nhóm đồng nhất đã chi phối hầu hết các nghiên cứu quảng cáo cá nhân hóa cho đến nay:

Ví dụ về các quảng cáo tùy chỉnh riêng lẻ. Tất nhiên, không có lịch sử người dùng làm bối cảnh, tác động đầy đủ chỉ có thể được tưởng tượng. Nguồn - https://arxiv.org/pdf/2605.12138

Ví dụ về các quảng cáo tùy chỉnh riêng lẻ. Tất nhiên, không có lịch sử người dùng làm bối cảnh, tác động đầy đủ chỉ có thể được tưởng tượng. Nguồn

Đặc biệt, cách tiếp cận mới này từ chối mô hình khuếch tán để ủng hộ một kiến trúc tự hồi quy – sự khác biệt chính là mô hình khuếch tán dần dần tinh chỉnh một hình ảnh từ tiếng ồn trực quan, trong khi các mô hình tự hồi quy tạo ra nội dung một mảnh tại một thời điểm, dự đoán mỗi yếu tố mới từ mọi thứ đã đến trước.

Để hỗ trợ mô hình tạo ra mới, các tác giả đã phát triển những gì họ tuyên bố là bộ dữ liệu hình ảnh/văn bản lớn đầu tiên cho quảng cáo cá nhân hóa, cũng như một thước đo mới được thiết kế để đánh giá nhiệm vụ rất cụ thể này. Trong các thử nghiệm, họ đã tìm thấy rằng cách tiếp cận của họ đã vượt qua cả các đường cơ sở chung và các phương pháp và khuôn khổ hiện có đang giải quyết thách thức này.

Walled Garden

Điều đáng chú ý là phạm vi công việc được đề xuất, không cung cấp cho các nhà quảng cáo một cách để lách các biện pháp mới chống lại việc theo dõi của bên thứ ba, mà thay vào đó trao cho một nhà bán lẻ đủ lớn quyền lực để tạo ra quảng cáo cho khách hàng đã đăng nhập liên quan trực tiếp đến người đó.

Điều này không nhất thiết bị giới hạn ở khách hàng đang duyệt trang web của nhà bán lẻ: tùy thuộc vào mức độ mà người dùng đã cấp cho nhà bán lẻ quyền theo dõi họ trên các trang web khác, họ có thể được trình bày với quảng cáo được nhắm mục tiêu trên bất kỳ số lượng trang web nào tham gia vào các cuộc đấu giá quảng cáo mà nhà bán lẻ sử dụng.

Loại quảng cáo này có xu hướng bị giới hạn ở các nhà bán lẻ quy mô lớn như Amazon, ở phương Tây (và chúng tôi lưu ý rằng một nhà bán lẻ Trung Quốc tương tự quy mô đã tham gia vào công việc mới – xem bên dưới), mặc dù bất kỳ mối quan tâm nào có quy mô tương tự (chẳng hạn như một nền tảng mạng xã hội phổ biến) về lý thuyết có thể tạo ra một khuôn khổ tạo ra tương tự.

Bài báo mới có tiêu đề Thiết kế Quảng cáo của Bạn: Tạo Quảng cáo Hình ảnh và Văn bản Cá nhân hóa với Mô hình Tự hồi quy Thống nhất, và đến từ 18 tác giả trên Đại học Sun Yat-Sen ở Quảng Châu, Đại học Northeastern và nhà bán lẻ lớn nhất của Trung Quốc, JD.com (đây là bên cung cấp quyền truy cập vào lịch sử và thói quen của người mua). Mã đã được cung cấp qua GitHub, và các điểm kiểm tra cũng được cung cấp.

Dữ liệu và Phương pháp

Bộ dữ liệu được xây dựng cho dự án có tên Quảng cáo hình ảnh-văn bản Cá nhân hóa (PAd1M), và được cung cấp bởi dữ liệu do JD.com cung cấp. Các tác giả tuyên bố:

‘Mỗi sản phẩm thường cung cấp hơn mười hình ảnh và văn bản ứng viên, đảm bảo rằng các sở thích đa dạng có thể được phát hiện đầy đủ. Để cho phép mô hình hóa sở thích đáng tin cậy, chúng tôi thu thập lịch sử nhấp chuột của người dùng hoàn chỉnh trên cả hình ảnh và văn bản, lọc ra người dùng có hoạt động không đủ để giảm tiếng ồn.

‘Điều này tạo ra một bộ dữ liệu gồm 1.145.371 người dùng, với 18.923.555 hình ảnh sản phẩm và văn bản được nhấp, trung bình hơn mười sáu hành vi đa phương tiện lịch sử trên mỗi người dùng.’

Đối với mỗi người dùng, một cặp hình ảnh-văn bản đã được nhấp trước đó được chọn làm ví dụ mục tiêu, sau đó sản phẩm chính được phân lập từ hình ảnh bằng Grounded SAM.

Mô tả và điểm bán hàng do người bán cung cấp sau đó được gắn vào hồ sơ, tạo ra một bộ dữ liệu trong đó mỗi quảng cáo mục tiêu được đi kèm với một hình ảnh sản phẩm minh bạch; thông tin sản phẩm có cấu trúc; và lịch sử tương tác hình ảnh và văn bản trước đó, nhằm mục đích bắt giữ sở thích và ưu tiên trước đó của người dùng:

Một hồ sơ người dùng từ bộ dữ liệu PAd1M, hiển thị một quảng cáo mục tiêu cùng với thông tin sản phẩm được sử dụng để tạo ra nó, và các tương tác hình ảnh và văn bản lịch sử được sử dụng để mô hình hóa sở thích của người dùng.

Một hồ sơ người dùng từ bộ dữ liệu PAd1M, hiển thị một quảng cáo mục tiêu cùng với thông tin sản phẩm được sử dụng để tạo ra nó, và các tương tác hình ảnh và văn bản lịch sử được sử dụng để mô hình hóa sở thích của người dùng.

Kết quả bộ dữ liệu này cung cấp một quy mô hơn một triệu người dùng và gần 19 triệu hồ sơ hình ảnh và văn bản được nhấp, với các tác giả tuyên bố rằng bộ sưu tập này lớn hơn đáng kể so với các bộ dữ liệu cá nhân hóa trước đó.

Ngoài ra, dữ liệu, khác thường cho dòng nghiên cứu này, kết hợp cả hình ảnh và văn bản, cho phép sở thích của người dùng được mô hình hóa trên nhiều phương thức, chứ không chỉ trong một lĩnh vực.

PAd1M cũng có tính năng theo dõi sở thích cấp độ cá nhân; không giống như các bộ dữ liệu quảng cáo trước đó, được xây dựng xung quanh tỷ lệ nhấp chuột tổng hợp trên các nhóm lớn, PAd1M liên kết các tương tác với người dùng cụ thể từ dữ liệu JD.com.

Về các chỉ số đo lường, ngoài các lựa chọn tiêu chuẩn như BLEUROUGE, các nhà nghiên cứu đã phát triển một thước đo tùy chỉnh có tên Tương đồng Bối cảnh Sản phẩm (PBS). Dựa trên MoCo-v3 trước đó, PBS được đào tạo trên 681.123 cặp hình ảnh hiển thị cùng sản phẩm trên các bối cảnh khác nhau, cho phép chỉ số đo lường tập trung vào biến thể ngữ cảnh chứ không phải sản phẩm chính:

Tương đồng Bối cảnh Sản phẩm (PBS) gán các điểm tương đồng khác nhau cho các quảng cáo chứa cùng sản phẩm nhưng đặt nó trong các bối cảnh trực quan khác nhau, trái ngược với các chỉ số đo lường cạnh tranh, tạo ra các khoảng cách nhỏ hơn.

Tương đồng Bối cảnh Sản phẩm (PBS) gán các điểm tương đồng khác nhau cho các quảng cáo chứa cùng sản phẩm nhưng đặt nó trong các bối cảnh trực quan khác nhau. Ngược lại, các chỉ số đo lường cạnh tranh tạo ra các khoảng cách nhỏ hơn.

Trong quá trình đào tạo, mỗi hình ảnh được ghép với chính nó làm ví dụ dương, trong khi một hình ảnh của cùng sản phẩm đặt trong một bối cảnh khác được sử dụng làm ví dụ âm, một chiến lược đào tạo nhằm tăng độ nhạy với bối cảnh.

Khi được đào tạo, mô hình học cả hai phương thức cùng nhau, với các token văn bản được dự đoán dựa trên chuỗi đầu vào và văn bản được tạo trước. Các token hình ảnh sau đó được dự đoán bằng cách sử dụng chuỗi đầu vào, văn bản được tạo và các token hình ảnh được tạo trước.

Để giữ cho các quảng cáo được tạo gắn với sản phẩm được quảng cáo, Uni-AdGen sử dụng một phương thức nhận thức tiền cảnh dựa trên DINO v2, để tiêm thông tin từ hình ảnh sản phẩm minh bạch vào mô hình tự hồi quy.

Huấn luyện hướng dẫn (đào tạo mô hình để tuân theo hướng dẫn tạo cụ thể cho sản phẩm được tạo từ mô tả và điểm bán hàng) cũng được sử dụng để cải thiện việc tuân thủ mô tả và điểm bán hàng do người bán cung cấp, với GPT-4o được sử dụng để lọc các ví dụ đào tạo không phù hợp.

Cá nhân hóa dựa trên một mô-đun hiểu biết sở thích thô. Các tương tác lịch sử trước tiên được lọc qua một dòng xử lý mẫu sản phẩm tương tự để ưa thích các sản phẩm giống với mục tiêu. Các hồ sơ còn lại sau đó được xử lý bởi một giai đoạn trích xuất sở thích đa phương tiện được thiết kế để xác định các yếu tố trực quan và văn bản có khả năng phản ánh sở thích của người dùng – với những sở thích đó được chèn vào lời nhắc, để hướng dẫn tạo ra:

Tổng quan phương pháp.

Tổng quan phương pháp.

Một số token phân cách đặc biệt xác định phần của chuỗi dành cho bản sao quảng cáo. Sau khi văn bản được tạo, một token hình ảnh chuyên dụng kích hoạt tạo hình ảnh, trong khi một token hình ảnh đóng dấu kết thúc tạo hình ảnh, với các token được tạo sau đó được gửi đến các bộ giải mã văn bản và hình ảnh riêng biệt.

Đối với hình ảnh, bộ giải mã VQ-GAN của LlamaGen được sử dụng để chuyển đổi các token hình ảnh rời rạc trở lại thành pixel.

Bằng cách này, kiến trúc thống nhất tạo ra văn bản và hình ảnh trong một khung dự đoán token tiếp theo duy nhất, thay vì dựa vào các đường ống riêng biệt – phương pháp được áp dụng cho các hệ thống quảng cáo trước đó có phạm vi tương tự.

Trong quá trình đào tạo, mô hình học cả hai phương thức cùng nhau, với các token văn bản được dự đoán dựa trên chuỗi đầu vào và văn bản được tạo trước. Các token hình ảnh sau đó được dự đoán bằng cách sử dụng chuỗi đầu vào, văn bản được tạo và các token hình ảnh được tạo trước.

Để giữ cho các quảng cáo được tạo gắn với sản phẩm được quảng cáo, Uni-AdGen sử dụng một phương thức nhận thức tiền cảnh dựa trên DINO v2, để tiêm thông tin từ hình ảnh sản phẩm minh bạch vào mô hình tự hồi quy.

Huấn luyện hướng dẫn (đào tạo mô hình để tuân theo hướng dẫn tạo cụ thể cho sản phẩm được tạo từ mô tả và điểm bán hàng) cũng được sử dụng để cải thiện việc tuân thủ mô tả và điểm bán hàng do người bán cung cấp, với GPT-4o được sử dụng để lọc các ví dụ đào tạo không phù hợp.

Thử nghiệm

Các tác giả tuyên bố rằng cách tiếp cận thử nghiệm của họ được rút ra từ DeepSeek’s Janus-Pro 7B.

Mô hình được đào tạo với kích thước批 là bốn, dưới AdamW với tốc độ học 5e-5. Mô hình cơ bản được tinh chỉnh qua LoRA, với trọn vẹn tinh chỉnh (tức là, không giống như LoRA, trọng số của mô hình cơ bản đã được thay đổi vĩnh viễn).

Tất cả các thử nghiệm đều được chạy trên GPU NVIDIA B200 với 192GB VRAM. Đối với tạo hình ảnh, PickScore, ImageRewardASE được sử dụng để đo chất lượng trực quan, trong khi m-BLEU và m-ROUGE được sử dụng để đánh giá văn bản quảng cáo. Người đánh giá con người cũng đánh giá tính thực tế của hình ảnh và chất lượng bố cục, cùng với độ chính xác và lưu loát của văn bản, với tất cả các chỉ số đo lường được tính trên 500 sản phẩm.

Đối với tạo hình ảnh, các đường cơ sở bao gồm Qwen2.5-VL và GPT-4o để tạo các lời nhắc nền từ hình ảnh sản phẩm, tiếp theo là ReliableAd, PosterMakerFlux-Fill để tạo quảng cáo cuối cùng. So sánh tạo văn bản được thực hiện với Qwen2.5, Qwen3DeepSeek-R1.

Kết quả ban đầu về tạo quảng cáo được hiển thị dưới đây:

Hiệu suất trên chuẩn mực tạo quảng cáo chung. Uni-AdGen đã đạt hoặc vượt qua các đường cơ sở tạo hình ảnh mạnh nhất về chất lượng thẩm mỹ và PickScore, trong khi mô hình hình ảnh-văn bản thống nhất đạt được điểm m-ROUGE cao nhất trong tất cả các phương pháp tạo văn bản. Kết quả đánh giá của con người vẫn cạnh tranh trên cả hai phương thức.

Hiệu suất trên chuẩn mực tạo quảng cáo chung. Uni-AdGen đã đạt hoặc vượt qua các đường cơ sở tạo hình ảnh mạnh nhất về chất lượng thẩm mỹ và PickScore, trong khi mô hình hình ảnh-văn bản thống nhất đạt được điểm m-ROUGE cao nhất trong tất cả các phương pháp tạo văn bản. Kết quả đánh giá của con người vẫn cạnh tranh trên cả hai phương thức.

Trong số những kết quả này, các tác giả tuyên bố:

‘Phương pháp của chúng tôi đạt được hiệu suất tốt nhất trong ImageReward và đứng thứ hai trong cả PickScore và đánh giá của con người, chứng tỏ hiệu suất vượt trội của nó về chất lượng thẩm mỹ và tỷ lệ có sẵn cao. Trong khi ReliableAd dẫn đầu trong đánh giá của con người, nó tụt lại phía sau đáng kể trong các chỉ số đo lường thẩm mỹ. Ngược lại, PosterMaker và Flux-Fill tạo ra hình ảnh trực quan hấp dẫn nhưng gặp phải những hạn chế về khả năng sử dụng rõ ràng.

‘Nhờ các phương pháp kiểm soát hiệu quả, phương pháp của chúng tôi đã thành công trong việc đạt được sự cân bằng tối ưu giữa nội dung trực quan và công dụng thực tế.’

Tạo quảng cáo Cá nhân hóa được đánh giá trên 500 người dùng có lịch sử tương tác được ghi lại, sử dụng Tương đồng Bối cảnh Sản phẩm (PBS) để đo độ tương đồng hình ảnh, và BLEU và ROUGE để so sánh văn bản được tạo với sản phẩm mà người dùng đã nhấp vào thực sự.

Vì các đường cơ sở quảng cáo chung được sử dụng trong thí nghiệm trước không thể kết hợp lịch sử người dùng, các so sánh đã được chuyển sang các hệ thống được thiết kế cho cá nhân hóa. Đối với tạo hình ảnh, Flux-KontextPigeon đã được chọn làm đường cơ sở. Flux-Kontext được cung cấp một lưới hình ảnh lịch sử của người dùng cùng với hình ảnh sản phẩm mục tiêu, cho phép sở thích trước đó ảnh hưởng đến tạo ra.

Vì Pigeon không hỗ trợ tự nhiên việc đặt sản phẩm được kiểm soát, mô-đun nhận thức tiền cảnh được phát triển cho Uni-AdGen đã được tích hợp để duy trì sự nhất quán của sản phẩm. Đối với tạo văn bản, Qwen3 và DeepSeek-R1 đã được sử dụng, với mô tả sản phẩm lịch sử được chèn trực tiếp vào các mẫu hướng dẫn của chúng để cung cấp bối cảnh cụ thể cho người dùng:

Kết quả tạo quảng cáo cá nhân hóa. Uni-AdGen đã vượt qua Flux-Kontext, Pigeon, Qwen3 và DeepSeek-R1 trên tất cả các chỉ số đo lường cá nhân hóa được báo cáo, trong khi nghiên cứu loại bỏ chỉ ra rằng dữ liệu người dùng lịch sử, mẫu sản phẩm tương tự và trích xuất sở thích đa phương tiện mỗi thứ đều đóng góp những lợi ích đáng kể.

Kết quả tạo quảng cáo cá nhân hóa. Uni-AdGen đã vượt qua Flux-Kontext, Pigeon, Qwen3 và DeepSeek-R1 trên tất cả các chỉ số đo lường cá nhân hóa được báo cáo, trong khi nghiên cứu loại bỏ chỉ ra rằng dữ liệu người dùng lịch sử, mẫu sản phẩm tương tự và trích xuất sở thích đa phương tiện mỗi thứ đều đóng góp những lợi ích đáng kể.

Tại đây, các tác giả nhận xét:

‘Kết quả được trực quan hóa [được bao gồm trong hình ảnh dưới] cho thấy Flux-Kontext không hiểu sở thích của người dùng và vẫn dễ bị nhiễu ở cấp độ mẫu, dẫn đến sự偏差 đáng kể so với sự thật, chẳng hạn như các mục không liên quan trong hình ảnh xe máy.’

Ví dụ về tạo quảng cáo cá nhân hóa. So với Flux-Kontext, Pigeon, Qwen3 và DeepSeek-R1, Uni-AdGen đã tạo ra hình ảnh phù hợp hơn với phong cách trực quan và bối cảnh của quảng cáo mà người dùng thực sự đã nhấp, trong khi tạo văn bản đã bắt được một tỷ lệ lớn hơn của các thuộc tính sản phẩm và điểm bán hàng có mặt trong các ví dụ thực tế. Các thuật ngữ phù hợp được đánh dấu màu xanh lá cây.

Ví dụ về tạo quảng cáo cá nhân hóa. So với Flux-Kontext, Pigeon, Qwen3 và DeepSeek-R1, Uni-AdGen đã tạo ra hình ảnh phù hợp hơn với phong cách trực quan và bối cảnh của quảng cáo mà người dùng thực sự đã nhấp, trong khi tạo văn bản đã bắt được một tỷ lệ lớn hơn của các thuộc tính sản phẩm và điểm bán hàng có mặt trong các ví dụ thực tế. Các thuật ngữ phù hợp được đánh dấu màu xanh lá cây.

Các ví dụ định tính, các tác giả cho rằng, chỉ ra rằng Flux-Kontext và Pigeon thường tạo ra đầu ra khác với các đặc điểm trực quan của quảng cáo mà người dùng đã nhấp trước đó; trong khi đó, văn bản được tạo bởi Qwen3 và DeepSeek-R1 bỏ qua một số điểm bán hàng có mặt trong các ví dụ thực tế.

Kết luận

Tiện ích của dự án này phụ thuộc hoàn toàn vào việc người dùng đồng ý, và việc mở rộng phạm vi của hệ thống ‘dự đoán’ này vượt ra ngoài phạm vi của miền kiểm soát lịch sử người dùng – trong trường hợp này, JD.com – đòi hỏi một tập hợp các quyền người dùng được thư giãn thậm chí còn nhiều hơn, trong hầu hết các vùng lãnh thổ.

Tuy nhiên, hệ thống này dựa trên loại hiệu ứng mạng quy mô lớn đang hoạt động trong kịch bản như vậy, và trên ý tưởng (có thể hơi lạc quan) rằng người dùng sẽ tìm thấy loại hệ thống gợi ý thực sự cá nhân hóa và thậm chí là tiên tri này hữu ích hơn là xâm phạm, ít nhất là trong bối cảnh của một gã khổng lồ bán lẻ.

 

* Đây là hình ảnh xây dựng trên xu hướng mới đáng lo ngại về ‘hình ảnh hợp nhất’ trong các bài báo nghiên cứu, trong đó các hình minh họa từng là 3-4 hình khác nhau được hợp nhất thành một (vì mục đích tuân thủ các hướng dẫn về độ dài tối đa của bài báo chính) và được sử dụng chỉ để tham khảo, thường không có lời giải thích đầy đủ trong chú thích đi kèm.

‘m’-prefix chỉ ra so sánh với nhiều văn bản ứng viên.

Được xuất bản lần đầu vào Thứ Ba, ngày 2 tháng 6 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]