มุมมองของ Anderson

การวิจัยใหม่เสนอการโฆษณา ‘ส่วนบุคคล’ ที่แท้จริง

mm
A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

การกำหนดความหมายใหม่ของ ‘การโปรโมตตนเอง’ วิธีการใหม่นี้ขุดค้นการคลิกของผู้ใช้เพื่อสร้างโฆษณาเว็บแบบกำหนดเองตามประวัติเฉพาะของพวกเขา

 

แม้ว่าสำนักงานโฆษณาจะ พยายามที่จะหักล้าง ความคิดที่ว่ามีการโฆษณาแบบฟันเฟืองที่สามารถให้โฆษณาแก่คุณตามสิ่งที่คุณพูดในบ้านของตนเอง แต่ระดับของ ‘การปรับให้เหมาะสม’ ที่โฆษณาแสดงในเว็บไซต์และแอปโซเชียลมีเดียได้ สร้างความสนใจ ในช่วงไม่กี่ปีที่ผ่านมา

สถานการณ์ที่理想สำหรับผู้โฆษณาคือโฆษณาที่ให้บริการจะเป็น ‘การปรับให้เหมาะสมอย่างสมบูรณ์’ สำหรับผู้ชม ในขอบเขตของ การผลักดันสาธารณะ เกี่ยวกับการติดตามออนไลน์ และมาตรการป้องกันที่ผู้ใช้อาจติดตั้งเพื่อป้องกันการตรวจสอบดังกล่าว AI ที่สร้างขึ้น (โดยไม่คำนึงถึงความกลัวเกี่ยวกับ โฆษณา LLM ใน โลกหลังการค้นหา) มีความสามารถในการผลิตภาพโฆษณาและข้อความได้อย่างรวดเร็วเพียงพอสำหรับการใช้งานแบบเรียลไทม์

อย่างไรก็ตาม จุดสนใจหลักของการวิจัยและความพยายามส่วนใหญ่จนถึงตอนนี้มีศูนย์กลางอยู่ที่ สถิติการใช้งานรวม เพื่อให้โฆษณาที่สร้างขึ้นสำหรับผู้ชมจะขึ้นอยู่กับกลุ่ม คอกอร์ต ที่ถูกเดาไว้ของพวกเขา มากกว่าประวัติศาสตร์ส่วนบุคคลของพวกเขา

ตอนนี้ การวิจัยร่วมใหม่ระหว่างจีนและสหรัฐฯ นำเสนอวิธีการสร้างภาพโฆษณาและข้อความสำหรับผู้ใช้แต่ละคนโดยการเรียนรู้จากประวัติการคลิกของพวกเขาเมื่อเข้าสู่ระบบเว็บไซต์ โดยพ้นจากสมมติฐานที่ขึ้นอยู่กับคอกอร์ตที่ควบคุมการโฆษณาที่ปรับให้เหมาะสมส่วนใหญ่จนถึงตอนนี้:

ตัวอย่างการสร้างโฆษณาแบบส่วนบุคคล โดยไม่มีประวัติของผู้ใช้เป็นบริบท ผลกระทบเต็มรูปแบบสามารถจินตนาการได้เท่านั้น แหล่งที่มา - https://arxiv.org/pdf/2605.12138

ตัวอย่างการสร้างโฆษณาแบบส่วนบุคคล โดยไม่มีประวัติของผู้ใช้เป็นบริบท ผลกระทบเต็มรูปแบบสามารถจินตนาการได้เท่านั้น แหล่งที่มา

ไม่เหมือนใคร วิธีการใหม่นี้ละทิ้ง แบบจำลองการแพร่กระจาย เพื่อใช้ สถาปัตยกรรมแบบอัตโนมัติ – ความแตกต่างหลักคือ แบบจำลองการแพร่กระจาย ที่ปรับแต่งภาพจากเสียงที่มองเห็นได้ ในขณะที่แบบจำลองอัตโนมัติสร้างเนื้อหาทีละชิ้น โดยการคาดการณ์องค์ประกอบใหม่จากทุกสิ่งที่มาก่อน:

สวนปิด

มันคุ้มค่าที่จะทราบถึงขอบเขตที่เสนอของงาน ซึ่งไม่ได้ให้โฆษณาแก่ผู้โฆษณาในการหลบหลีกมาตรการใหม่ๆ ต่อติดตามข้อมูลของบุคคลที่สาม แต่ให้ความสามารถแก่ผู้ค้าปลีกขนาดใหญ่ในการให้บริการโฆษณาแก่ลูกค้าที่เข้าสู่ระบบโดยตรงกับบุคคลนั้น

สิ่งนี้ไม่จำเป็นต้องจำกัดอยู่แค่ลูกค้าที่กำลังท่องเว็บไซต์ของผู้ค้าปลีกในขณะนั้น: ขึ้นอยู่กับระดับที่ผู้ใช้ได้ให้ความยินยอมแก่ผู้ค้าปลีกในการติดตามพวกเขาในเว็บไซต์อื่นๆ พวกเขาอาจได้รับโฆษณาที่มุ่งเป้าไปที่พวกเขาในเว็บไซต์อื่นๆ ที่เข้าร่วมการประมูลโฆษณาที่ผู้ค้าปลีกใช้

การเข้าถึงโฆษณานี้มักจะจำกัดอยู่ที่ร้านค้าปลีกขนาดใหญ่ เช่น Amazon ในตะวันตก (และเราสังเกตว่าร้านค้าปลีกจีนขนาดใหญ่ๆ ได้เข้าร่วมการวิจัยใหม่นี้ด้วย – ดูรายละเอียดด้านล่าง) แต่ผู้ค้าปลีกขนาดใหญ่ใดๆ (เช่น แพลตฟอร์มโซเชียลมีเดียที่ได้รับความนิยม) สามารถสร้างเฟรมเวิร์กการสร้างโฆษณาแบบส่วนบุคคลได้เช่นกัน

เอกสารวิจัยใหม่ ชื่อเรื่อง คือ ออกแบบโฆษณาของคุณ: การสร้างภาพและข้อความโฆษณาแบบส่วนบุคคลด้วยแบบจำลองอัตโนมัติแบบสหสาขาวิชา และมาจากผู้เขียนร่วม 18 คนจากมหาวิทยาลัย Sun Yat-Sen ในกว่างโจว มหาวิทยาลัย Northeastern และ JD.com ของจีน (ซึ่งให้การเข้าถึงประวัติและนิสัยของผู้ซื้อ) รหัสได้รับการเผยแพร่ ผ่าน GitHub และ จุดตรวจสอบที่เกี่ยวข้อง ได้รับการเผยแพร่เช่นกัน

ข้อมูลและวิธีการ

ชุดข้อมูลที่สร้างขึ้นสำหรับโครงการนี้มีชื่อว่า โฆษณาแบบส่วนบุคคล-รูปภาพและข้อความ (PAd1M) และได้รับการสนับสนุนจากข้อมูลที่จัดเตรียมโดย JD.com ผู้ร่วมให้ข้อมูลในโครงการ ผู้เขียนระบุว่า:

‘ผลิตภัณฑ์แต่ละรายการมักจะมีรูปภาพและข้อความที่เป็นไปได้มากกว่า 10 รายการ เพื่อให้แน่ใจว่าความชอบที่หลากหลายสามารถตรวจจับได้อย่างเต็มที่ เพื่อให้การสร้างแบบจำลองความชอบที่เชื่อถือได้ เราเก็บประวัติการคลิกของผู้ใช้ทั้งหมดทั้งรูปภาพและข้อความ โดยการกรองผู้ใช้ที่มีกิจกรรมไม่เพียงพอเพื่อลดสัญญาณรบกวน

‘สิ่งนี้ทำให้เราได้ชุดข้อมูลที่มีผู้ใช้ 1,145,371 ราย โดยมีรูปภาพและข้อความผลิตภัณฑ์ที่คลิกทั้งหมด 18,923,555 รายการ โดยเฉลี่ยมากกว่า 16 พฤติกรรมหลายรูปแบบต่อผู้ใช้’

สำหรับผู้ใช้แต่ละคน คู่รูปภาพและข้อความที่คลิกก่อนหน้านี้หนึ่งคู่ถูกเลือกเป็นตัวอย่างเป้าหมาย หลังจากนั้นผลิตภัณฑ์จะถูกแยกออกจากรูปภาพโดยใช้ Grounded SAM

คำอธิบายและจุดขายที่จัดเตรียมโดยผู้ขายจะถูกแนบเข้ากับบันทึก โดยสร้างชุดข้อมูลที่โฆษณาแต่ละรายการมาพร้อมกับรูปภาพผลิตภัณฑ์ที่โปร่งใส ข้อมูลผลิตภัณฑ์ที่มีโครงสร้าง และประวัติการโต้ตอบกับรูปภาพและข้อความก่อนหน้า ซึ่งออกแบบมาเพื่อจับประวัติและความชอบของผู้ใช้:

โปรไฟล์ผู้ใช้จากชุดข้อมูล PAd1M โดยแสดงโฆษณาเป้าหมายพร้อมข้อมูลผลิตภัณฑ์ที่ใช้ในการสร้าง และการโต้ตอบกับรูปภาพและข้อความที่ใช้ในการสร้างแบบจำลองความชอบของผู้ใช้

โปรไฟล์ผู้ใช้จากชุดข้อมูล PAd1M โดยแสดงโฆษณาเป้าหมายพร้อมข้อมูลผลิตภัณฑ์ที่ใช้ในการสร้าง และการโต้ตอบกับรูปภาพและข้อความที่ใช้ในการสร้างแบบจำลองความชอบของผู้ใช้

ชุดข้อมูลที่ได้ผลมีขนาดใหญ่กว่า 1 ล้านผู้ใช้ และเกือบ 19 ล้านบันทึกรูปภาพและข้อความที่คลิก โดยผู้เขียนระบุว่าชุดข้อมูลนี้มีขนาดใหญ่กว่าชุดข้อมูลส่วนบุคคลก่อนหน้านี้

นอกจากนี้ ชุดข้อมูลนี้รวมทั้งรูปภาพและข้อความ ซึ่งช่วยให้สามารถสร้างแบบจำลองความชอบของผู้ใช้ได้หลายรูปแบบ ไม่ใช่แค่ในโดเมินเดียว

PAd1M ยังมีการติดตามความชอบระดับบุคคล ซึ่งไม่เหมือนกับชุดข้อมูลโฆษณาก่อนหน้านี้ที่สร้างขึ้นโดยใช้อัตราการคลิกที่รวบรวมจากกลุ่มใหญ่ PAd1M นำการโต้ตอบมาเชื่อมโยงกับผู้ใช้เฉพาะจากข้อมูลของ JD.com

สำหรับเมตริก นอกจากตัวเลือกมาตรฐาน เช่น BLEU และ ROUGE ผู้วิจัยได้พัฒนามาตรการใหม่ที่เรียกว่า ความคล้ายคลึงกันของพื้นหลังผลิตภัณฑ์ (PBS) โดยอาศัย MoCo-v3 ก่อนหน้านี้ PBS ได้รับการฝึกอบรมจาก 681,123 คู่รูปภาพที่แสดงผลิตภัณฑ์เดียวกันบนพื้นหลังต่างๆ ทำให้สามารถมุ่งเน้นไปที่การเปลี่ยนแปลงบริบทมากกว่าผลิตภัณฑ์เอง:

ความคล้ายคลึงกันของพื้นหลังผลิตภัณฑ์ (PBS) มอบคะแนนความคล้ายคลึงที่แตกต่างกันอย่างเห็นได้ชัดสำหรับโฆษณาที่มีผลิตภัณฑ์เดียวกัน แต่ตั้งอยู่ในบริบทภาพที่แตกต่างกัน ซึ่งตรงกันข้ามกับเมตริกที่แข่งขันกันซึ่งผลิตการแบ่งแยกที่เล็กกว่ามาก

ความคล้ายคลึงกันของพื้นหลังผลิตภัณฑ์ (PBS) มอบคะแนนความคล้ายคลึงที่แตกต่างกันอย่างเห็นได้ชัดสำหรับโฆษณาที่มีผลิตภัณฑ์เดียวกัน แต่ตั้งอยู่ในบริบทภาพที่แตกต่างกัน ซึ่งตรงกันข้ามกับเมตริกที่แข่งขันกันซึ่งผลิตการแบ่งแยกที่เล็กกว่ามาก

ระหว่างการฝึกอบรม ภาพแต่ละภาพจะถูกจับคู่กับตัวมันเองเป็นตัวอย่างบวก ในขณะที่ภาพของผลิตภัณฑ์เดียวกันที่วางใน สภาพแวดล้อมที่แตกต่าง จะใช้เป็นตัวอย่างลบ สตราเทจีการฝึกอบรมนี้มีจุดมุ่งหมายเพื่อเพิ่มความไวต่อพื้นหลังบริบท

ผลการประเมิน บทความอ้างว่า PBS มีความแตกต่างของความคล้ายคลึงที่มากกว่าระหว่างพื้นหลังที่ตรงกันและไม่ตรงกันมากกว่าที่ผลิตโดย CLIP, DINO v3 หรือ MoCov3 ที่กล่าวถึงก่อนหน้านี้

ตามที่แสดงในส่วนบนซ้ายของภาพด้านล่าง* โมเดล การสร้างโฆษณาแบบสหสาขาวิชา (Uni-AdGen) ของผู้วิจัยใช้สถาปัตยกรรมการมองเห็นและภาษาที่อัตโนมัติเพื่อสร้างทั้งรูปภาพและข้อความโฆษณา กระบวนการนี้ได้รับการชี้นำโดยคำแนะนำที่มีโครงสร้างซึ่งรวมถึงคำจำกัดความของงาน และคำอธิบายผลิตภัณฑ์พร้อมจุดขาย:

ภาพรวมของวิธีการ

ภาพรวมของวิธีการ

โทเค็นพิเศษที่จำกัดช่วงของลำดับที่สงวนไว้สำหรับข้อความโฆษณา หลังจากที่ข้อความถูกสร้างแล้ว โทเค็นรูปภาพที่อุทิศจะช่วยเรียกใช้การสร้างรูปภาพ ในขณะที่โทเค็นปิดรูปภาพแสดงถึงการเสร็จสิ้นของการสร้างรูปภาพ โทเค็นที่สร้างขึ้นจะถูกส่งไปยังตัวถอดรหัสข้อความและรูปภาพแยกกัน

สำหรับรูปภาพ ตัวถอดรหัส VQ-GAN ของ LlamaGen จะถูกใช้ในการแปลงโทเค็นรูปภาพที่แยกออกเป็นจุดภาพ

ด้วยวิธีนี้ สถาปัตยกรรมแบบสหสาขาวิชา สร้างข้อความและรูปภาพภายใน การคาดการณ์โทเค็นถัดไป แฟรมเวิร์กเดียว แทนที่จะพึ่งพาไปป์ไลน์ที่แยกจากกัน – วิธีการที่นำมาใช้กับระบบโฆษณาก่อนหน้านี้ที่มีจุดมุ่งหมายที่คล้ายคลึงกัน

ระหว่างการฝึกอบรม โมเดลเรียนรู้ทั้งสองรูปแบบพร้อมกัน โดยมีโทเค็นข้อความที่คาดการณ์ตามลำดับข้อมูลเข้าและข้อความที่สร้างขึ้นก่อนหน้านี้ โทเค็นรูปภาพจะถูกคาดการณ์โดยใช้ลำดับข้อมูลเข้า ข้อความที่สร้างขึ้น และโทเค็นรูปภาพที่สร้างขึ้นก่อนหน้านี้

เพื่อให้แน่ใจว่าโฆษณาที่สร้างขึ้นจะเชื่อมโยงกับผลิตภัณฑ์ที่โฆษณา Uni-AdGen ใช้ โมดูลการรับรู้พื้นหน้า ที่อาศัย DINO v2 เพื่อฉีดข้อมูลจากภาพผลิตภัณฑ์ที่โปร่งใสเข้าไปในโมเดลแบบอัตโนมัติ

การปรับให้เหมาะสมด้วยคำแนะนำ (การฝึกอบรมโมเดลให้ปฏิบัติตามคำแนะนำในการสร้างที่เฉพาะเจาะจงซึ่งมาจากคำอธิบายและจุดขาย) ถูกใช้เพื่อปรับปรุงการยึดมั่นในคำอธิบายและจุดขายที่จัดเตรียมโดยผู้ขาย โดยมี GPT-4o ที่ใช้ในการกรองตัวอย่างการฝึกอบรมที่ไม่เหมาะสม

การปรับให้เหมาะสมขึ้นอยู่กับ โมดูลการทำความเข้าใจความชอบแบบหยาบถึงละเอียด การโต้ตอบทางประวัติศาสตร์จะถูกกรองผ่าน การวิเคราะห์ความคล้ายคลึงกันของผลิตภัณฑ์ (PSS) เพื่อชื่นชอบผลิตภัณฑ์ที่คล้ายกับรายการเป้าหมาย บันทึกที่เหลือจะถูกประมวลผลโดย การ 추출ความชอบหลายรูปแบบ ที่ออกแบบมาเพื่อระบุองค์ประกอบที่มองเห็นและข้อความที่มีแนวโน้มที่จะสะท้อนถึงความสนใจของผู้ใช้ – โดยที่ความชอบเหล่านั้นจะถูกแทรกเข้าไปในคำแนะนำเพื่อชี้นำการสร้าง:

การทดสอบ

ผู้เขียนระบุว่าวิธีการทดสอบของพวกเขามาจาก DeepSeek’s Janus-Pro 7B

โมเดลถูกฝึกอบรมที่ ขนาดแบตช์ ของสี่ ภายใต้ AdamW ที่อัตราการเรียนรู้ 5e-5 โมเดลฐานถูกปรับให้เหมาะสมผ่าน LoRA โดยที่การรับรู้พื้นหน้าและ การ 추출ความชอบหลายรูปแบบ ถูก ปรับให้เหมาะสมอย่างเต็มที่ (หมายความว่าไม่เหมือนกับ LoRA น้ำหนักของโมเดลฐานถูกเปลี่ยนแปลงไป)

การทดสอบทั้งหมดถูกดำเนินการบน NVIDIA B200 GPU ที่มี VRAM 192GB สำหรับการสร้างรูปภาพ PickScore, ImageReward และ ASE ถูกใช้เพื่อวัดคุณภาพทางภาพ ในขณะที่ m-BLEU และ m-ROUGE ถูกใช้เพื่อประเมินข้อความโฆษณา ผู้ประเมินมนุษย์ประเมินความสมจริงของภาพและคุณภาพการวางผัง พร้อมด้วยความถูกต้องและความคล่องแคล่วของข้อความ โดยที่ทุกเมตริกถูกคำนวณข้ามผลิตภัณฑ์ 500 รายการ

สำหรับการสร้างรูปภาพ โมเดลฐานประกอบด้วย Qwen2.5-VL และ GPT-4o สำหรับการสร้างคำแนะนำพื้นหลังจากภาพผลิตภัณฑ์ ตามด้วย ReliableAd, PosterMaker และ Flux-Fill สำหรับการสร้างโฆษณาโดยสมบูรณ์ การเปรียบเทียบการสร้างข้อความถูกดำเนินการกับ Qwen2.5, Qwen3 และ DeepSeek-R1

ผลลัพธ์เชิงปริมาณเบื้องต้นสำหรับการสร้างโฆษณาแสดงไว้ด้านล่าง:

ประสิทธิภาพบนมาตรฐานการสร้างโฆษณาทั่วไป Uni-AdGen ตีตราหรือแซงหน้าฐานการสร้างรูปภาพที่แข็งแกร่งที่สุดในด้านคุณภาพทาง审美และ PickScore ในขณะที่โมเดลภาพและข้อความที่รวมกันบรรลุคะแนน m-ROUGE ที่สูงที่สุดในหมวดการสร้างข้อความทั้งหมด ผลการประเมินของมนุษย์ยังคงแข่งขันกันตลอดทั้งสองรูปแบบ

ประสิทธิภาพบนมาตรฐานการสร้างโฆษณาทั่วไป Uni-AdGen ตีตราหรือแซงหน้าฐานการสร้างรูปภาพที่แข็งแกร่งที่สุดในด้านคุณภาพทาง审美และ PickScore ในขณะที่โมเดลภาพและข้อความที่รวมกันบรรลุคะแนน m-ROUGE ที่สูงที่สุดในหมวดการสร้างข้อความทั้งหมด ผลการประเมินของมนุษย์ยังคงแข่งขันกันตลอดทั้งสองรูปแบบ

จากผลลัพธ์เหล่านี้ ผู้เขียนระบุว่า:

‘วิธีการของเราบรรลุประสิทธิภาพที่ดีที่สุดใน ImageReward และอยู่ในอันดับที่สองใน PickScore และการประเมินของมนุษย์ โดยแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในด้านความสวยงามและอัตราการใช้งานที่สูง ในขณะที่ ReliableAd นำหน้าในการประเมินของมนุษย์ แต่ล้าหลังอย่างมากในเมตริกทาง审美 ในทางกลับกัน PosterMaker และ Flux-Fill สร้างภาพที่น่าดึงดูด แต่ต้องเผชิญกับข้อจำกัดที่เห็นได้ชัดในด้านการใช้งาน ‘

‘ด้วยวิธีการควบคุมที่มีประสิทธิภาพ วิธีการของเราสามารถบรรลุความสมดุลที่เหมาะสมระหว่างเนื้อหาทางภาพและประโยชน์ใช้งานได้สำเร็จ’

การสร้างโฆษณาแบบส่วนบุคคลถูกประเมินในผู้ใช้ 500 รายที่มีประวัติการโต้ตอบที่บันทึกไว้ โดยใช้ PBS ที่กล่าวถึงก่อนหน้านี้เพื่อวัดความคล้ายคลึงกันของภาพ และ BLEU และ ROUGE เพื่อเปรียบเทียบข้อความที่สร้างขึ้นกับผลิตภัณฑ์ที่ผู้ใช้คลิกจริงๆ

เนื่องจากฐานการสร้างโฆษณาทั่วไปที่ใช้ในการทดลองก่อนหน้านี้ไม่สามารถรวมประวัติผู้ใช้ได้ การเปรียบเทียบจึงถูกเปลี่ยนไปใช้ระบบที่ออกแบบมาเพื่อการปรับให้เหมาะสม สำหรับการสร้างรูปภาพ Flux-Kontext และ Pigeon ถูกเลือกเป็นฐานการสร้างรูปภาพ Flux-Kontext ได้รับการจัดเตรียมด้วยกริดของภาพประวัติของผู้ใช้ข้างๆ ภาพผลิตภัณฑ์เป้าหมาย เพื่อให้ความชอบก่อนหน้าสามารถมีอิทธิพลต่อการสร้าง

เนื่องจาก Pigeon ไม่ได้สนับสนุนการวางผลิตภัณฑ์แบบควบคุมโดยธรรมชาติ โมดูลการรับรู้พื้นหน้าที่พัฒนาเพื่อ Uni-AdGen ถูกผสมเข้ากับ Pigeon เพื่อรักษาความสอดคล้องของผลิตภัณฑ์ สำหรับการสร้างข้อความ Qwen3 และ DeepSeek-R1 ถูกใช้ โดยที่คำอธิบายผลิตภัณฑ์ทางประวัติศาสตร์ถูกแทรกเข้าไปในเทมเพลตคำแนะนำโดยตรงเพื่อให้บริบทเฉพาะของผู้ใช้:

ผลการสร้างโฆษณาแบบส่วนบุคคล Uni-AdGen เหนือ Flux-Kontext, Pigeon, Qwen3 และ DeepSeek-R1 ในทุกเมตริกการปรับให้เหมาะสมที่รายงาน ในขณะที่การศึกษาการลบส่วนออกแสดงให้เห็นว่าข้อมูลผู้ใช้ทางประวัติศาสตร์ การวิเคราะห์ความคล้ายคลึงกันของผลิตภัณฑ์ และการ 추출ความชอบหลายรูปแบบทั้งหมดมีส่วนช่วยในการเพิ่มประสิทธิภาพที่วัดได้

ผลการสร้างโฆษณาแบบส่วนบุคคล Uni-AdGen เหนือ Flux-Kontext, Pigeon, Qwen3 และ DeepSeek-R1 ในทุกเมตริกการปรับให้เหมาะสมที่รายงาน ในขณะที่การศึกษาการลบส่วนออกแสดงให้เห็นว่าข้อมูลผู้ใช้ทางประวัติศาสตร์ การวิเคราะห์ความคล้ายคลึงกันของผลิตภัณฑ์ และการ 추출ความชอบหลายรูปแบบทั้งหมดมีส่วนช่วยในการเพิ่มประสิทธิภาพที่วัดได้

ที่นี่ ผู้เขียนแสดงความคิดเห็นว่า:

‘ผลลัพธ์ที่แสดงให้เห็น [รวมอยู่ในภาพด้านล่าง] แสดงให้เห็นว่า Flux-Kontext ล้มเหลวในการเข้าใจความชอบของผู้ใช้และยังคงอ่อนไหวต่อเสียงรบกวนระดับตัวอย่าง ซึ่งนำไปสู่การเบี่ยงเบนอย่างมากจากความจริง เช่น รายการที่ไม่เกี่ยวข้องในภาพรถจักรยานยนต์’

ตัวอย่างการสร้างโฆษณาแบบส่วนบุคคล เมื่อเปรียบเทียบกับ Flux-Kontext, Pigeon, Qwen3 และ DeepSeek-R1 Uni-AdGen สร้างภาพที่สอดคล้องกับลักษณะการมองเห็นและบริบทของโฆษณาที่ผู้ใช้คลิกจริงๆ ในขณะที่สร้างข้อความที่จับผลิตภัณฑ์ขายและจุดขายที่มีอยู่ในตัวอย่างที่แท้จริงได้มากขึ้น คำศัพท์ที่ตรงกันจะถูกเน้นด้วยสีเขียว

ตัวอย่างการสร้างโฆษณาแบบส่วนบุคคล เมื่อเปรียบเทียบกับ Flux-Kontext, Pigeon, Qwen3 และ DeepSeek-R1 Uni-AdGen สร้างภาพที่สอดคล้องกับลักษณะการมองเห็นและบริบทของโฆษณาที่ผู้ใช้คลิกจริงๆ ในขณะที่สร้างข้อความที่จับผลิตภัณฑ์ขายและจุดขายที่มีอยู่ในตัวอย่างที่แท้จริงได้มากขึ้น คำศัพท์ที่ตรงกันจะถูกเน้นด้วยสีเขียว

ตัวอย่างเชิงคุณภาพที่ผู้เขียนอ้างว่า Flux-Kontext และ Pigeon มักจะสร้างผลลัพธ์ที่เบี่ยงเบนไปจากคุณลักษณะการมองเห็นของโฆษณาที่ผู้ใช้คลิกจริงๆ ในขณะที่ข้อความที่สร้างโดย Qwen3 และ DeepSeek-R1 ละเว้นบางจุดขายที่มีอยู่ในตัวอย่างที่แท้จริง

สรุป

ความมีประโยชน์ของโครงการนี้ขึ้นอยู่กับการยินยอมของผู้ใช้โดยสิ้นเชิง และการขยายการเข้าถึงของระบบ ‘การคาดเดา’ นี้ไปนอกขอบเขตของโดเมนที่ควบคุมประวัติผู้ใช้ – ในกรณีนี้คือ JD.com – ต้องการการยินยอมของผู้ใช้ที่ผ่อนคลายมากขึ้นในดินแดนส่วนใหญ่

อย่างไรก็ตาม ระบบนี้อาศัยผลกระทบของเครือข่ายขนาดใหญ่และแนวคิดที่ (อาจจะหวังมากไปหน่อย) ว่าผู้ใช้จะพบว่าระบบแนะนำที่ปรับให้เหมาะสมและแม่นยำนี้มีประโยชน์มากกว่าที่จะรู้สึกว่ามันรบกวน โดยเฉพาะอย่างยิ่งภายใน ‘สวนปิด’ ของผู้ค้าปลีกขนาดใหญ่

 

* ภาพนี้สร้างขึ้นจากแนวโน้มใหม่ที่น่าห่วงใยของ ‘ตัวเลขที่รวบรวม’ ในเอกสารวิจัย ซึ่งภาพประกอบที่เคยเป็นตัวเลข 3-4 ตัวจะถูกรวบรวมเข้าด้วยกัน (เพื่อเป็นไปตามแนวทางการส่งเอกสารเกี่ยวกับความยาวสูงสุดของเอกสารหลัก) และใช้เป็นเพียงวัสดุอ้างอิง โดยมักจะไม่มีการอธิบายที่เพียงพอในคำบรรยายประกอบ

‘m’-prefix บ่งบอกถึงการเปรียบเทียบกับข้อความที่เป็นไปได้หลายรายการ

เผยแพร่ครั้งแรกวันพุธที่ 2 มิถุนายน 2026 แก้ไข 18:21 EET เพื่อแก้ไข ‘wall’ สุดท้ายเป็น ‘walled’ ในย่อหน้าสุดท้าย

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai