Góc nhìn Anderson
Hình Ảnh Quảng Cáo Tạo Bởi Trí Tuệ Nhân Tạo Nhắm Vào Dân Số Mục Tiêu – Và, Cuối Cùng, Bạn?

Các nhà quảng cáo nhằm mục đích tùy chỉnh quảng cáo cho từng người xem để thúc đẩy nhấp chuột, và mặc dù các nội dung sáng tạo tùy chỉnh cho từng người hiện tại không thực tế, nghiên cứu mới cho thấy hình ảnh tạo bởi trí tuệ nhân tạo có thể sớm được nhắm mục tiêu hiệu quả đến các dân số mục tiêu.
Quảng cáo cá nhân hóa được giới thiệu trong bộ phim khoa học viễn tưởng năm 2002 của Steven Spielberg Báo Cáo Thiểu Số đã để lại một ấn tượng lâu dài, ngay cả khi đáng sợ đối với văn hóa, với việc mô tả sinh động về các bảng quảng cáo chủ động nhận ra người trong đám đông và hét lên các thông điệp quảng cáo trực tiếp đến họ.
Nhiều nhóm người tiêu dùng có thể xem mức độ nhận biết người xem này như một cơn ác mộng, và mặc dù tiến bộ hướng tới nó đã bị chậm lại bởi hậu quả của vụ bê bối Cambridge Analytica vụ bê bối, lý tưởng về sự tham gia trực tiếp, nhắm mục tiêu cao vẫn là một mục tiêu quý giá trong quảng cáo.
Thực tế, các hệ thống có thể khoan sâu vào các đặc điểm của một người xem cụ thể vẫn đang được phát triển – mặc dù trong những trường hợp như vậy, nghiên cứu doanh nghiệp phải thực hiện các biện pháp để tôn trọng các luật xung quanh thông tin cá nhân có thể nhận dạng (PII); các luật đã được tăng cường ở châu Âu trong thập kỷ qua, với các bảo vệ cải tiến này được lan rộng ở nơi khác thông qua hiệu ứng Brussels.
Này, Bạn!
Giờ đây quảng cáo và nội dung tiếp thị tạo bởi trí tuệ nhân tạo đang tăng trên, các nhà quảng cáo phải đối mặt với chi phí tiềm năng của quảng cáo trí tuệ nhân tạo nhắm vào các cá nhân cụ thể, nơi hình ảnh và văn bản được tạo ra một cách cơ hội và theo thời gian thực.
Ví dụ, ngay cả khi một hình ảnh tùy chỉnh có thể được tạo ra rất nhanh, chi phí ở quy mô lớn sẽ đáng kể. Ngoài ra, các quy trình đấu giá quảng cáo trực tuyến tự động hoạt động tại các khung thời gian quan trọng, ở mức thời gian tính bằng miligiây, điều này khiến nội dung hình ảnh tùy chỉnh cho người dùng trở nên đầy thách thức, và nội dung video càng trở nên xa vời.
Tuy nhiên, các chướng ngại vật kỹ thuật liên quan đến việc giải quyết các nhóm dân số mục tiêu ở cấp độ cao hơn trong khán giả dựa trên mạng (thông qua máy tính xách tay, điện thoại, TV thông minh, v.v.) không nghiêm trọng như vậy – và một sự hợp tác học thuật / công nghiệp quốc tế mới đang đề xuất một cách để tạo ra hình ảnh quảng cáo riêng biệt cho các dân số mục tiêu khác nhau, bao gồm cả các yếu tố như tuổi tác và vị trí:

Từ công việc mới: các ví dụ về tạo quảng cáo cá nhân hóa, nơi một sản phẩm đơn lẻ được hiển thị trong các phong cách khác nhau cho các nhóm người xem khác nhau. Hàng trên cùng hiển thị hình ảnh sản phẩm gốc. Ba hàng tiếp theo hiển thị các phiên bản được điều chỉnh cho ba loại người xem khác nhau cho mỗi sản phẩm, dựa trên sự khác biệt về đặc điểm như tuổi tác, lối sống hoặc sở thích thẩm mỹ. Các loại này không được định nghĩa trước mà được phát hiện tự động. Nguồn
Khung mới – có tên Một Kích Cỡ, Nhiều Khớp (OSMF) – nhằm mục đích bắc cầu giữa quảng cáo mục tiêu rộng và cá nhân hóa không thực tế, bằng cách tạo ra các hình ảnh quảng cáo khác nhau cho các nhóm khán giả được phát hiện tự động, sử dụng nhóm sản phẩm thích ứng để căn chỉnh nội dung trực quan với sở thích nhấp chuột của các dân số mục tiêu khác nhau
Các tác giả tuyên bố:
‘[Chúng tôi] trình bày một khung thống nhất rằng căn chỉnh các sở thích nhấp chuột theo nhóm khác nhau trong việc tạo hình ảnh quảng cáo lớn.
‘OSMF bắt đầu với nhóm sản phẩm thích ứng, động态 tổ chức người dùng dựa trên thuộc tính của họ và đặc điểm sản phẩm, đại diện cho mỗi nhóm bằng các tính năng sở thích tập thể phong phú.’
Được kiểm tra so với các khung trước đó, các tác giả tuyên bố đạt được kết quả hàng đầu.
Mặc dù công việc xác định các nhóm dân số mục tiêu đa dạng, bài báo không cụ thể về các đặc điểm dân số nào được đại diện bởi mỗi G nhóm, mặc dù những đặc điểm này có vẻ như có thể ánh xạ đến các nhóm phân khúc thị trường truyền thống truyền thống.
Vì vậy, không dễ dàng để nói, dựa trên các ví dụ được đưa ra trong bài báo chính và phụ lục, chính xác tại sao một số nền tảng hoặc ánh sáng nhất định sẽ hấp dẫn một nhóm hơn nhóm khác, vì chúng tôi không biết các đặc điểm của bất kỳ nhóm nào:

Không có phong cách nhất quán như ‘xanh cho nam, hồng cho nữ’ v.v. trong các phong cách hình ảnh cụ thể cho từng nhóm, điều mà có thể tiết lộ loại người nào thuộc về nhóm nào – các định nghĩa, như có trong tài liệu hiện có, phức tạp và tinh tế hơn nhiều.
Có thể lo ngại hơn, đối với những người cảnh giác với các hoạt động nhắm mục tiêu quảng cáo, là khả năng khai thác thông tin từng người trong việc tạo ra hình ảnh cụ thể trong quảng cáo**.
Bài báo mới mới có tiêu đề Một Kích Cỡ, Nhiều Khớp: Căn Chỉnh Các Sở Thích Nhấp Chuột Theo Nhóm Trong Tạo Hình Ảnh Quảng Cáo Lớn, và đến từ 17 nhà nghiên cứu trên khắp Phòng thí nghiệm Quốc gia về Nhận dạng Mẫu tại Bắc Kinh; ‘Trường AI tại UCAS’; công ty thương mại điện tử Trung Quốc JINGDONG; Đại học Khoa học và Công nghệ Hồng Kông tại Quảng Châu; và Phòng thí nghiệm Nhận dạng Mẫu tại Đại học Khoa học và Công nghệ Nam Kinh.
Phương Pháp
Hệ thống sử dụng nhóm thích ứng (một phương pháp tìm kiếm các nhóm tự nhiên bằng cách liên kết các đặc điểm người dùng với cách họ phản ứng với các sản phẩm khác nhau) để nhóm người dùng, dựa trên cách các đặc điểm của họ định hình sở thích trực quan trong một cài đặt sản phẩm cụ thể. Việc thực hiện phương pháp này của các tác giả được gọi là Nhóm Sản Phẩm Thích Ứng (PAAG).
Các nhóm này không được cố định trước, mà được phát hiện từ các mẫu trong dữ liệu.
Một máy tạo hình ảnh có điều kiện, có tên Tạo Hình Ảnh Có Điều Kiện Theo Sở Thích (PCIG), sau đó sử dụng hồ sơ của mỗi nhóm để tạo ra hình ảnh quảng cáo phù hợp với sở thích của nhóm:

Khung OSMF nhóm người dùng theo cách các đặc điểm của họ định hình sở thích sản phẩm, sau đó sử dụng các hồ sơ nhóm để tạo hình ảnh quảng cáo phù hợp với sở thích của mỗi nhóm. PAAG xử lý việc nhóm, và PCIG tạo hình ảnh bằng cách sử dụng các gợi ý và phản hồi được điều chỉnh cho từng nhóm.
Máy tạo hình ảnh sử dụng một phiên bản không xác định của Stable Diffusion, cùng với một bộ ControlNet phù hợp (sau này, để giúp duy trì sự nhất quán giữa các thế hệ nhóm khác nhau).
Trong quy trình làm việc, PAAG đầu tiên mã hóa mối quan hệ giữa các đặc điểm người dùng và cả khía cạnh văn bản và hình ảnh của sản phẩm, sử dụng một tập hợp các bộ mã hóa chuyên dụng và một cơ chế chú ý chéo để hợp nhất chúng thành một nhúng sở thích thống nhất phản ánh sự có khả năng một người dùng nhấp vào một quảng cáo cụ thể.
PAAG sau đó mô hình hóa cách các kết hợp khác nhau của các thuộc tính người dùng tương tác với cả tiêu đề sản phẩm và hình ảnh sản phẩm. Các tính năng văn bản và hình ảnh được trích xuất bằng cách sử dụng các bộ mã hóa CLIP và ResNet, và các đặc điểm người dùng như giới tính, vị trí, tuổi tác, hoặc thiết bị được truyền qua một MLP, cho phép chú ý chéo trên các tính năng văn bản và hình ảnh sản phẩm.
Nhúng kết quả đại diện cho xác suất nhấp của mỗi người dùng cho một sản phẩm cụ thể trong một ngữ cảnh trực quan cụ thể. Khi các nhúng sở thích người dùng – sản phẩm này được thu được, PAAG sử dụng phương pháp nhóm K-means để nhóm người dùng lại với nhau những người phản ứng tương tự với một sản phẩm nhất định:
Các hồ sơ nhóm này sau đó được truyền dưới dạng thẻ đến mô hình ngôn ngữ lớn đa phương tiện nhóm (G-MLLM), được sử dụng để tạo quảng cáo hình ảnh phù hợp với sở thích của mỗi nhóm.
Tạo Hình Ảnh Dựa Trên Sở Thích Người Dùng
Về phía người dùng, G-MLLM học cách dự đoán những thành viên nhóm nào có khả năng nhấp chuột tiếp theo và cách mô tả các đặc điểm chung bằng ngôn ngữ tự nhiên. Về phía sản phẩm, nó học cách tóm tắt sản phẩm được hiển thị trong hình ảnh và tạo ra các chú thích quảng cáo phù hợp với cả sản phẩm và nhóm.
Để phản ánh hành vi người dùng thực tế, mô hình được mở rộng thành một mô hình phần thưởng nhóm (GRM). GRM được đào tạo trên tập dữ liệu Sở Thích Hình Ảnh Quảng Cáo Nhóm (GAIP) của các nhà nghiên cứu † (xem dưới đây) để so sánh các cặp hình ảnh cho cùng một sản phẩm và xác định hình ảnh nào hoạt động tốt hơn với một nhóm nhất định, sử dụng dữ liệu nhấp chuột thực:
Đây là tín hiệu phần thưởng sau đó được sử dụng để tinh chỉnh G-MLLM với Group-DPO, một phương pháp dạy nó ưa thích các gợi ý dẫn đến sự tham gia của nhóm tốt hơn.
Dữ Liệu và Kiểm Tra
Phát Triển GAIP
Lưu ý rằng có sự thiếu hụt lịch sử về các tập dữ liệu liên quan đến sở thích quảng cáo dựa trên nhóm, và rằng các tập dữ liệu trước đó như Súp Cá Nhân Hóa và CG4CTR quá nhỏ hoặc không được xác định rõ, các nhà nghiên cứu đã phát triển tập dữ liệu của riêng họ, tập dữ liệu GAIP nói trên, được rút ra từ ‘nhật ký quảng cáo công nghiệp’ của một nền tảng thương mại điện tử không xác định.
Các nhật ký được thu thập trong ba tuần, với mỗi mục nhập ghi lại hình ảnh sản phẩm và tiêu đề, hồ sơ người xem (bao gồm tuổi tác, mức chi tiêu, và nhạy cảm với quảng cáo), và liệu quảng cáo có được nhấp chuột:
Tập dữ liệu bao gồm hơn 40 triệu người dùng, 2 triệu sản phẩm, và gần 10 triệu hình ảnh quảng cáo, với sự đa dạng trực quan cao trên các mặt hàng.
Người dùng được nhóm lại thành các cụm riêng biệt cho mỗi sản phẩm bằng PAAG, và tỷ lệ nhấp chuột (CTR) được tính cho mỗi hình ảnh trong mỗi nhóm:

Từ tài liệu phụ của bài báo mới, một cái nhìn nhỏ về một số tiêu chí xác định cho GAIT.
GAIP sau đó được hình thành như một tập hợp các tuples (hình ảnh quảng cáo, tiêu đề sản phẩm, nhúng nhóm, CTR cụ thể của nhóm) ghép mỗi hình ảnh và tiêu đề với CTR và nhúng của nhóm đã xem nó:
Để đảm bảo độ tin cậy, chỉ các sản phẩm có đủ mức độ hiển thị được giữ lại, dẫn đến một tập dữ liệu gồm 610.172 mẫu cấp nhóm.
GAIP lớn hơn đáng kể so với các tập dữ liệu trước đó: trong khi hầu hết các điểm chuẩn trước đó liên quan đến ít hơn mười nhóm người dùng, GAIP bao gồm gần 600.000 hồ sơ sở thích nhóm thực tế, cung cấp thông tin sâu hơn về sở thích cấp nhóm.
Kiểm Tra
Để đào tạo đường ống PCIG, các nhà nghiên cứu đã trích xuất các tính năng hình ảnh và văn bản bằng cách sử dụng ResNet và bộ mã hóa văn bản CLIP, sau đó ánh xạ chúng sang các nhúng 128 chiều thông qua các lớp tuyến tính có thể học. Để duy trì hiệu quả, PAAG đã bị giới hạn ở năm nhóm người dùng cho mỗi sản phẩm.
Các nhúng nhóm được xây dựng bằng cách sử dụng chiến lược lấy mẫu dựa trên phần trăm, vẽ nhiều điểm từ các phần trăm 15, 55 và 95, để bắt cả sở thích cốt lõi và ngoại vi:
LLaVA được sử dụng làm xương sống cho G-MLLM, và việc tiền đào tạo được thực hiện trong mười kỳ với lịch trình học cosine ở tốc độ học 2e-6, đòi hỏi một khoảng thời gian đào tạo đáng kể năm ngày trên một cụm tám GPU H100 của NVIDIA, mỗi GPU có 80GB VRAM.
GRM được đào tạo bằng cách tái tạo GAIP với các cặp hình ảnh sản phẩm phù hợp, sau đó được khởi tạo với cùng trọng số như G-MLLM. Trong giai đoạn Group-DPO cuối cùng, GRM được đông lạnh, và G-MLLM được tinh chỉnh bằng cách sử dụng LoRA trong ba kỳ – lại ở tốc độ học 2e-5, trên cùng cụm NVIDIA:
Các chỉ số được sử dụng cho đánh giá đầu tiên là NDCG@5 và AUROC. NDCG@5 đo lường mức độ khác biệt mà mỗi nhóm xếp hạng cùng một tập hợp hình ảnh quảng cáo, với giá trị thấp hơn cho thấy sự tách biệt rõ ràng hơn trong sở thích; và AUROC được sử dụng để đánh giá mức độ tốt mà mỗi mô hình phân biệt nội dung được nhấp chuột và không được nhấp chuột.
Tất cả các chỉ số đều được tính trên kết quả nhóm từ 1.000 sản phẩm, với khoảng 100.000 mẫu, và được sử dụng để so sánh PAAG với ba hệ thống trước đó: CACS; WIYD; và JAC:

Kết quả mô hình hóa sở thích so với các phương pháp trước đó. Giá trị NDCG@5 thấp hơn và AUROC cao hơn cho thấy hiệu suất tốt hơn. Các điểm số tốt nhất được in đậm, điểm số tốt thứ hai được gạch chân.
Trong số những kết quả này, các tác giả nhận xét:
‘Phương pháp của chúng tôi đạt được hiệu suất vượt trội trên cả hai chỉ số. Cụ thể, PAAG đạt được giá trị NDCG@5 thấp nhất (0,3066), vượt qua baseline tốt nhất (CACS), cho thấy các mẫu sở thích nhóm khác biệt hơn cho việc tạo quảng cáo nhóm hiệu quả.
‘Ngoài ra, PAAG đạt được giá trị AUROC cao nhất (0,6372), cải thiện so với baseline mạnh nhất (WIYD) 0,0159.’
Một vòng kiểm tra thứ hai kiểm tra xem hệ thống có thể phù hợp hơn với quảng cáo cho các nhóm người dùng đúng không:

So sánh tỷ lệ nhấp chuột trực tuyến cho thấy việc tạo quảng cáo được cá nhân hóa theo nhóm (‘Chúng tôi’) vượt trội so với tất cả các baseline, bao gồm cả CAIG và G-MLLM được đào tạo trước.
Ở đây, PCIG cho thấy tỷ lệ nhấp chuột cao hơn so với các mô hình cũ hơn như CAIG và G-MLLM, với mức cải thiện 5,5%. GRM cũng được kiểm tra ngoại tuyến bằng cách kiểm tra xem nó có thể chọn đúng quảng cáo trong một cặp dựa trên sở thích nhóm. Nó vượt trội so với tất cả các baseline, bao gồm cả các mô hình chung, với mức tăng 4,7% so với CAIG.
Một kiểm tra định tính cuối cùng được thực hiện để đánh giá xem PCIG có thể phản ánh sở thích cấp nhóm trong phong cách của hình ảnh tạo ra không. Như được hiển thị trong hình dưới đây, cùng một sản phẩm được hiển thị khác nhau cho mỗi nhóm, với sự thay đổi về bảng màu, âm sắc và thành phần trực quan:

Kết quả đầy đủ cho các kiểm tra định tính, được xem trước trong bài viết.
Những biến thể này, theo các tác giả, phù hợp với sở thích nhấp chuột được suy đoán cho mỗi nhóm, cho thấy PCIG có thể tạo ra các đầu ra phong cách đa dạng trong khi vẫn giữ được sự liên quan và hấp dẫn. Các tác giả tuyên bố:
‘[PCIG] đảm bảo các hình ảnh phong cách đa dạng để đáp ứng sở thích nhấp chuột của các nhóm người dùng khác nhau, do đó chứng minh khả năng mạnh mẽ của nó trong việc thích nghi với nhu cầu người dùng đa dạng và nắm bắt các sự khác biệt tinh tế trong sở thích trên các nhóm người dùng khác nhau, nhấn mạnh tiềm năng của nó cho việc tạo quảng cáo hình ảnh theo nhóm ở quy mô lớn.’
Kết Luận
Có lẽ khía cạnh thú vị nhất của dự án này là mối tương quan không rõ ràng giữa các phong cách đầu ra trên hình ảnh quảng cáo hướng đến nhóm cho cùng một sản phẩm (trong đó có vài trang ví dụ hơn trong tài liệu phụ của bài báo so với những gì chúng tôi có thể tái tạo ở đây).
Chúng ta có thể giả định rằng môi trường đô thị liên quan đến tuổi tác, tức là những người mới tốt nghiệp, và rằng môi trường nông thôn nhắm đến các loại Gen X thịnh vượng hơn, những người xác định con đường mở là một loại ‘tự do cuối cùng’? Một người có thể giải thích những kết quả kiểm tra này cả ngày.
Khả năng của các hệ thống như vậy dựa trên hai yếu tố: thông tin và độ trễ. Thông tin phụ thuộc vào việc các hệ thống theo dõi mới có thể trích xuất đủ thông tin có ý nghĩa từ người dùng để hỗ trợ quảng cáo dựa trên nhóm hiệu quả, đồng thời đặt nền tảng cho các quảng cáo nhắm mục tiêu cá nhân chính xác hơn trong tương lai.
Độ trễ đặt ra một thách thức lớn hơn, vì những hình ảnh quảng cáo tùy chỉnh này phải được tạo ra và phân phối gần như tức thời; mặc dù một số mô hình văn bản sang hình ảnh gần đây có thể tạo ra kết quả trong vài giây, ngay cả độ trễ đó cũng có thể quá dài cho các cuộc đấu giá quảng cáo thời gian thực.
Một giải pháp có thể là tạo ra hình ảnh tại chỗ, trên GPU của trình duyệt, tránh các chuyến đi vòng tròn mạng; hoặc tạo ra một loạt hình ảnh trước, được lưu trữ trước trên phía client.
** Khía cạnh này được bỏ qua trong bài báo mới, giống như khả năng lạm dụng deepfake của các khung AI mới thường được làm mềm bằng cách sử dụng các hình ảnh động vật dễ thương (thay vì AI khiêu dâm) trong các nghiên cứu mới. Tuy nhiên, loại hình ảnh được hiển thị trong công việc này đại diện cho các nhà quảng cáo trong hành vi tốt nhất của họ, chứ không phải mô tả cách quảng cáo hình ảnh cá nhân hóa cuối cùng có thể trở nên như thế nào, khi các phương pháp nhắm mục tiêu người tiêu dùng kết hợp với AI tạo ra phản hồi nhanh.
** Tôi không thể xác định được cơ quan có tên này, vì ‘UCAS’ thường giải quyết thành một cơ quan ứng dụng đại học nổi tiếng của Vương quốc Anh. Tôi chào đón sự làm rõ.
† Được các nhà nghiên cứu hứa sẽ phát hành tại repo GitHub liên quan.
Được xuất bản lần đầu vào thứ Năm, ngày 5 tháng 2 năm 2026












