Anderson рдХрд╛ рдПрдВрдЧрд▓

рдирдП рд╢реЛрдз рдореЗрдВ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ ‘рд╡реНрдпрдХреНрддрд┐рдЧрдд’ рд╡рд┐рдЬреНрдЮрд╛рдкрди рдХрд╛ рдкреНрд░рд╕реНрддрд╛рд╡ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ

mm
A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

स्व-प्रचार की परिभाषा को फिर से परिभाषित करते हुए, एक नए तरीके से उपयोगकर्ता के अपने क्लिक्स को खनन करके उनके अपने विशिष्ट इतिहास के आधार पर वेब विज्ञापन बनाने के लिए एक विधि विकसित की गई है।

 

हालांकि विज्ञापन एजेंसियां यह विचार खारिज करने के लिए उत्सुक हैं कि विज्ञापन फ़नल मौजूद हैं जो आपको घर में कुछ कहने के बाद विज्ञापन परोस सकते हैं, वेबसाइटों और सोशल मीडिया ऐप्स में विज्ञापनों द्वारा प्रदर्शित ‘व्यक्तिगतीकरण’ की सीमा ने हाल के वर्षों में सुर्खियां बटोरी हैं।

विज्ञापनकर्ता के लिए आदर्श परिदृश्य हमेशा यह रहा है कि परोसा गया विज्ञापन दर्शक के लिए ‘सटीक फिट’ हो। ऑनलाइन ट्रैकिंग के बारे में सार्वजनिक प्रतिक्रिया की सीमा के भीतर, और जो भी रोकथाम उपाय उपयोगकर्ता ने ऐसे निगरानी के खिलाफ स्थापित किए हों, जनरेटिव एआई (एलएलएम विज्ञापन के आसपास डरों को अलग रखते हुए) वास्तविक समय में तैनाती के लिए विज्ञापन छवियों और प्रतिलिपि का उत्पादन करने में सक्षम है।

हालांकि, इस रेखा में शोध और कार्यान्वयन का मुख्य भाग अब तक समग्र उपयोग आंकड़ों पर आधारित रहा है, ताकि किसी दर्शक के लिए उत्पन्न किया गया कोई भी विज्ञापन दर्शक के अनुमानित समूह के आधार पर होगा, न कि उनके अपने अद्वितीय इतिहास के आधार पर।

अब, चीन और अमेरिका के बीच एक नए शोध सहयोग में एक प्रणाली प्रस्तुत की गई है जो व्यक्तिगत उपयोगकर्ताओं के लिए विज्ञापन छवियों और पाठ का उत्पादन करने के लिए उनके पिछले क्लिक्स से सीखने के द्वारा क Cohort-आधारित धारणाओं से परे जाती है जो अधिकांश व्यक्तिगत विज्ञापन शोध का वर्तमान में शासन करती हैं:

рд╡реНрдпрдХреНрддрд┐рдЧрдд рд░реВрдк рд╕реЗ рддреИрдпрд╛рд░ рдХрд┐рдП рдЧрдП рд╡рд┐рдЬреНрдЮрд╛рдкрдиреЛрдВ рдХреЛ рджрд░реНрд╢рд╛рдиреЗ рд╡рд╛рд▓реЗ рдЙрджрд╛рд╣рд░рдг рдкреАрдврд╝реЗред рдмрд┐рдирд╛ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЗ рдЗрддрд┐рд╣рд╛рд╕ рдХреЗ рд╕рдВрджрд░реНрдн рдХреЗ, рдкреВрд░реНрдг рдкреНрд░рднрд╛рд╡ рдХреЗрд╡рд▓ рдХрд▓реНрдкрдирд╛ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред рд╕реНрд░реЛрдд - https://arxiv.org/pdf/2605.12138

व्यक्तिगत रूप से तैयार किए गए विज्ञापनों को दर्शाने वाले उदाहरण पीढ़े। बिना उपयोगकर्ता के इतिहास के संदर्भ के, पूर्ण प्रभाव केवल कल्पना की जा सकती है। स्रोत

असामान्य रूप से, नई दृष्टिकोण में प्रसार-आधारित मॉडल के बजाय एक स्व-सरंक्षक वास्तुकला का उपयोग किया जाता है – मुख्य अंतर यह है कि प्रसार मॉडल धीरे-धीरे एक छवि को दृश्य शोर से परिष्कृत करते हैं, जबकि स्व-सरंक्षक मॉडल सामग्री एक समय में एक टुकड़ा उत्पन्न करते हैं, प्रत्येक नए तत्व की भविष्यवाणी करते हैं जो इससे पहले कि सब कुछ हो।

विज्ञापन प्रस्तुत करने के लिए एक नए जनरेटिव मॉडल का समर्थन करने के लिए, लेखकों ने दावा किया है कि व्यक्तिगत विज्ञापन के लिए पहला बड़े पैमाने पर छवि/पाठ डेटासेट विकसित किया है, साथ ही इस विशिष्ट कार्य का मूल्यांकन करने के लिए एक नए मीट्रिक का भी विकास किया है। परीक्षणों में, उन्होंने पाया कि उनका दृष्टिकोण सामान्य बेसलाइन और मौजूदा विधियों और ढांचों से बेहतर प्रदर्शन करता है जो इस चुनौती का सामना करते हैं।

वॉल्ड गार्डन

यह ध्यान देने योग्य है कि काम के प्रस्तावित दायरे में, जो विज्ञापनदाताओं को नए उपायों के खिलाफ तीसरे पक्ष की निगरानी को चकमा देने का तरीका प्रदान नहीं करता है, बल्कि एक पर्याप्त रूप से बड़े खुदरा विक्रेता को यह शक्ति देता है कि वे अपने ग्राहकों को व्यक्तिगत रूप से संबोधित कर सकें जो सीधे उस व्यक्ति से संबंधित हैं।

यह आवश्यक रूप से वर्तमान में खुदरा विक्रेता की अपनी साइट पर ब्राउज़िंग करने वाले ग्राहकों तक ही सीमित नहीं है: यह इस बात पर निर्भर करता है कि उपयोगकर्ता ने खुदरा विक्रेता को अन्य साइटों पर उनकी निगरानी करने की अनुमति दी है या नहीं, वे उन साइटों में विज्ञापन देख सकते हैं जो खुदरा विक्रेता द्वारा उपयोग की जाने वाली विज्ञापन नीलामी में भाग लेती हैं।

इस प्रकार की विज्ञापन पहुंच आमतौर पर उच्च-मात्रा वाले आउटलेट जैसे अमेज़ॅन तक सीमित होती है, पश्चिम में (और हम ध्यान देते हैं कि एक समान रूप से बड़े चीनी खुदरा विक्रेता ने नए कार्य में भाग लिया है – नीचे देखें), हालांकि किसी भी समान रूप से बड़े चिंता (जैसे कि एक लोकप्रिय सोशल मीडिया प्लेटफ़ॉर्म) सिद्धांत रूप में एक समान जनरेटिव फ्रेमवर्क उत्पन्न कर सकता है।

नई कागज़ का शीर्षक डिज़ाइन योर एड: व्यक्तिगत विज्ञापन छवि और पाठ जेनरेशन यूनिफाइड ऑटोरेग्रेसिव मॉडल के साथ है, और गुआंगज़ौ में सुन यात-सेन विश्वविद्यालय, नॉर्थईस्टर्न विश्वविद्यालय और चीन के सबसे बड़े खुदरा विक्रेता, जेडी.com (जो उपभोक्ताओं के इतिहास और आदतों तक पहुंच प्रदान करता है) के 18 लेखकों के बीच एक सहयोग से है। कोड गिटहब के माध्यम से उपलब्ध कराया गया है, और संबंधित चेकपॉइंट भी उपलब्ध हैं

डेटा और विधि

परियोजना के लिए निर्मित डेटासेट का शीर्षक व्यक्तिगत विज्ञापन छवि-पाठ (पीएडी1एम) है, और जेडी.com द्वारा प्रदान किए गए डेटा द्वारा संचालित है। लेखकों का कहना है:

‘प्रत्येक उत्पाद आमतौर पर दस से अधिक उम्मीदवार छवियों और पाठों की आपूर्ति करता है, जिससे विविध वरीयताओं का पता लगाने की अनुमति मिलती है। विश्वसनीय वरीयता मॉडलिंग को सक्षम करने के लिए, हम छवियों और पाठों दोनों पर पूर्ण उपयोगकर्ता क्लिक इतिहास एकत्र करते हैं, शोर को कम करने के लिए पर्याप्त गतिविधि के बिना उपयोगकर्ताओं को फ़िल्टर करते हैं।

‘यह 1,145,371 उपयोगकर्ताओं का एक डेटासेट बनाता है, जिसमें 18,923,555 क्लिक किए गए उत्पाद छवियों और पाठों के साथ, प्रति उपयोगकर्ता औसतन सोलह से अधिक बहुस्तरीय ऐतिहासिक व्यवहार होते हैं।’

प्रत्येक उपयोगकर्ता के लिए, एक पहले से क्लिक की गई छवि-पाठ जोड़ी को लक्ष्य उदाहरण के रूप में चुना गया था, जिसके बाद उत्पाद को छवि से ग्राउंडेड एसएएम का उपयोग करके अलग किया गया था।

बेचने वाले द्वारा आपूर्ति की गई विवरण और बिक्री बिंदु रिकॉर्ड में जोड़े गए थे, एक डेटासेट बनाते हुए जिसमें प्रत्येक लक्ष्य विज्ञापन एक पारदर्शी उत्पाद छवि; संरचित उत्पाद जानकारी; और एक पहले के छवि और पाठ इंटरैक्शन का इतिहास द्वाराpanied है, जिसका उद्देश्य उपयोगकर्ता की पिछली रुचियों और वरीयताओं को पकड़ना है:

рдкреАрдПрдбреА1рдПрдо рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдПрдХ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдкреНрд░реЛрдлрд╝рд╛рдЗрд▓, рдЬрд┐рд╕рдореЗрдВ рдПрдХ рд▓рдХреНрд╖реНрдп рд╡рд┐рдЬреНрдЮрд╛рдкрди рдХреЛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХреА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рдЙрддреНрдкрд╛рдж рдЬрд╛рдирдХрд╛рд░реА рдХреЗ рд╕рд╛рде-рд╕рд╛рде рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреА рд╡рд░реАрдпрддрд╛рдУрдВ рдХреЛ рдореЙрдбрд▓ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдП рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЫрд╡рд┐ рдФрд░ рдкрд╛рда рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреЗ рд╕рд╛рде рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИред

पीएडी1एम डेटासेट से एक उपयोगकर्ता प्रोफ़ाइल, जिसमें एक लक्ष्य विज्ञापन को उत्पन्न करने के लिए उपयोग की जाने वाली उत्पाद जानकारी के साथ-साथ उपयोगकर्ता की वरीयताओं को मॉडल करने के लिए उपयोग किए जाने वाले ऐतिहासिक छवि और पाठ इंटरैक्शन के साथ दिखाया गया है।

परिणामी डेटासेट में एक मिलियन से अधिक उपयोगकर्ताओं और लगभग 19 मिलियन क्लिक की गई छवि और पाठ रिकॉर्ड हैं, लेखकों का कहना है कि संग्रह पिछले व्यक्तिगतीकरण डेटासेट की तुलना में काफी बड़ा है।

इसके अलावा, डेटा, इस शोध धारा के लिए असामान्य रूप से, दोनों छवियों और पाठ को जोड़ती है, जिससे उपयोगकर्ता की वरीयताओं को एक ही डोमेन के भीतर नहीं, बल्कि कई मॉडलिटी में मॉडल किया जा सकता है।

पैड1एम में व्यक्तिगत-स्तर की वरीयता ट्रैकिंग भी है; पिछले विज्ञापन डेटासेट के विपरीत, जो बड़े समूहों में क्लिक-थ्रू दर के आसपास बनाए गए थे, पीएडी1एम जेडी.com डेटा से विशिष्ट उपयोगकर्ताओं के साथ इंटरैक्शन को जोड़ता है।

मीट्रिक के लिए, मानक विकल्पों के अलावा ब्लू और रोग, शोधकर्ताओं ने अपना स्वयं का कस्टम माप बनाया जिसे उत्पाद पृष्ठभूमि समानता (पीबीएस) कहा जाता है। पिछले मोको-वी3 पहल के आधार पर, पीबीएस को 681,123 छवि जोड़े पर प्रशिक्षित किया गया था जो एक ही उत्पाद को विभिन्न पृष्ठभूमि में दिखाते हैं, जिससे मीट्रिक संदर्भ में भिन्नता पर ध्यान केंद्रित करने में सक्षम हो सकता है, न कि उत्पाद स्वयं पर:

рдЙрддреНрдкрд╛рдж рдкреГрд╖реНрдарднреВрдорд┐ рд╕рдорд╛рдирддрд╛ (рдкреАрдмреАрдПрд╕) рдЙрди рд╡рд┐рдЬреНрдЮрд╛рдкрдиреЛрдВ рдХреЛ рдЬреЛ рдПрдХ рд╣реА рдЙрддреНрдкрд╛рдж рдХреЛ рд╡рд┐рднрд┐рдиреНрди рджреГрд╢реНрдп рд╕рдВрджрд░реНрднреЛрдВ рдореЗрдВ рд░рдЦрддреЗ рд╣реИрдВ, рдХреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╕рдорд╛рдирддрд╛ рд╕реНрдХреЛрд░ рд╕реМрдВрдкрддреА рд╣реИ, рдЬрдмрдХрд┐ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзреА рдореАрдЯреНрд░рд┐рдХ рдмрд╣реБрдд рдЫреЛрдЯреЗ рдкреГрдердХреНрдХрд░рдг рдЙрддреНрдкрдиреНрди рдХрд░рддреА рд╣реИрдВред

उत्पाद पृष्ठभूमि समानता (पीबीएस) उन विज्ञापनों को जो एक ही उत्पाद को विभिन्न दृश्य संदर्भों में रखते हैं, को अलग-अलग समानता स्कोर सौंपती है, जबकि प्रतिस्पर्धी मीट्रिक बहुत छोटे पृथक्करण उत्पन्न करती हैं।

प्रशिक्षण के दौरान, प्रत्येक छवि को खुद के साथ एक सकारात्मक उदाहरण के रूप में जोड़ा गया था, जबकि एक ही उत्पाद की एक छवि जो एक विभिन्न सेटिंग में रखी गई थी, एक नकारात्मक उदाहरण के रूप में कार्य किया, जो प्रशिक्षण रणनीति का उद्देश्य पृष्ठभूमि संदर्भ के प्रति संवेदनशीलता में वृद्धि करना था। मूल्यांकन परिणाम, कागज़ का दावा है, सीएलआईपी, डीआईएनओ वी3, या उपरोक्त मोको-वी3 द्वारा उत्पादित उन लोगों की तुलना में मिलान और गैर-मिलान वाली पृष्ठभूमि के बीच बड़े समानता अंतर दिखाते हैं।

जैसा कि नीचे दी गई छवि के ऊपरी बाएं खंड में दिखाया गया है, शोधकर्ताओं के एकीकृत विज्ञापन उत्पादक (यूनी-एडजेन) मॉडल में एक स्व-सरंक्षक दृष्टि-भाषा वास्तुकला है जो विज्ञापन पाठ और छवियों दोनों का उत्पादन करती है। प्रक्रिया एक संरचित निर्देश द्वारा निर्देशित की जाती है जिसमें कार्य परिभाषा, और उत्पाद विवरण, साथ ही साथ बिक्री बिंदु शामिल हैं:

рд╡рд┐рдзрд┐ рдЕрд╡рд▓реЛрдХрдиред

विधि अवलोकन。

विशेष डिलिमिटिंग टोकन विज्ञापन प्रतिलिपि के लिए आरक्षित अनुक्रम के हिस्से को परिभाषित करते हैं। एक बार प्रतिलिपि उत्पन्न हो जाने के बाद, एक समर्पित छवि टोकन छवि उत्पादन को ट्रिगर करता है, जबकि एक समापन छवि टोकन इसके पूरा होने को चिह्नित करता है, जिसके बाद उत्पन्न टोकन अलग-अलग पाठ और छवि डिकोडरों को भेजे जाते हैं।

छवियों के लिए, ल्लामाजेन का वीक्यू-गैन डिकोडर विचारों को वापस पिक्सेल में परिवर्तित करने के लिए उपयोग किया जाता है।

इस प्रकार, एकीकृत वास्तुकला एक ही अगले टोकन की भविष्यवाणी फ्रेमवर्क के भीतर पाठ और छवियों का उत्पादन करती है, अलग-अलग पाइपलाइनों पर निर्भर नहीं होती है – जो पहले के समान विज्ञापन प्रणालियों के लिए अपनाई गई विधि थी।

प्रशिक्षण के दौरान, मॉडल दोनों मॉडलिटी एक साथ सीखता है, पाठ टोकन को इनपुट अनुक्रम और पहले से उत्पन्न पाठ के आधार पर भविष्यवाणी की जाती है। छवि टोकन को इनपुट अनुक्रम, उत्पन्न पाठ, और पहले से उत्पन्न छवि टोकन का उपयोग करके भविष्यवाणी की जाती है।

उत्पन्न विज्ञापनों को बढ़ावा देने वाले उत्पाद से जोड़े रखने के लिए, यूनी-एडजेन एक फोरग्राउंड-परसेप्शन मॉड्यूल का उपयोग करता है जो डीआईएनओ वी2 पर आधारित है, जो पारदर्शी उत्पाद छवियों से जानकारी को स्व-सरंक्षक मॉडल में इंजेक्ट करता है।

निर्देश-ट्यूनिंग (मॉडल को उत्पाद-विशिष्ट पीढ़ी निर्देशों का पालन करने के लिए प्रशिक्षित करना जो विवरण और बिक्री बिंदुओं से व्युत्पन्न होते हैं) का भी उपयोग बेचने वाले द्वारा प्रदान किए गए विवरण और बिक्री बिंदुओं के पालन में सुधार के लिए किया गया था, जीपीटी-4ओ का उपयोग असuitable प्रशिक्षण उदाहरणों को फ़िल्टर करने के लिए किया गया था।

व्यक्तिगतीकरण एक स्थूल-से-सूक्ष्म वरीयता-समझ मॉड्यूल पर निर्भर करता है। ऐतिहासिक इंटरैक्शन पहले एक उत्पाद समानता नमूनाकरण पाइपलाइन के माध्यम से फ़िल्टर किए गए थे ताकि लक्ष्य आइटम के समान उत्पादों को प्राथमिकता दी जा सके। शेष रिकॉर्ड एक बहुस्तरीय वरीयता निष्कर्षण चरण द्वारा संसाधित किए गए थे जो दृश्य और पाठ तत्वों की पहचान करने के लिए डिज़ाइन किए गए थे जो सबसे अधिक उपयोगकर्ता हितों को प्रतिबिंबित करते हैं – जिन वरीयताओं को प्रॉम्प्ट में डाला जाता है ताकि पीढ़ी का मार्गदर्शन किया जा सके।

परीक्षण

लेखकों का कहना है कि उनका परीक्षण दृष्टिकोण डीपसीक के जैनस-प्रो 7बी से व्युत्पन्न है।

मॉडल को बैच आकार चार पर प्रशिक्षित किया गया था, एडमडब्ल्यू ऑप्टिमाइज़र के तहत 5ई-5 की सीखने की दर पर। आधार मॉडल को लोरा के माध्यम से फ़ाइन-ट्यून किया गया था, पूर्वभूमि धारणा और बहुस्तरीय वरीयता निष्कर्षण पूरी तरह से फ़ाइन-ट्यून किए गए थे (अर्थात, लोरा के विपरीत, आधार मॉडल वजन स्थायी रूप से बदल दिए गए थे)।

सभी परीक्षण एक एनवीडिया बी200 जीपीयू पर 192GB के वीआरएएम के साथ चलाए गए थे। छवि पीढ़ी के लिए, पिकस्कोर, इमेजरिवार्ड, और एएसई का उपयोग दृश्य गुणवत्ता को मापने के लिए किया गया था, जबकि मी-ब्लू और मी-रोग विज्ञापन पाठ का मूल्यांकन करने के लिए उपयोग किए गए थे। मानव मूल्यांककों ने छवि वास्तविकता और लेआउट गुणवत्ता का मूल्यांकन किया, साथ ही पाठ की सटीकता और प्रवाह, सभी मीट्रिक 500 उत्पादों में गणना की गई थी।

छवि पीढ़ी के लिए, बेसलाइन में क्यूवेन2.5-वीएल और जीपीटी-4ओ शामिल थे, जो उत्पाद छवियों से पृष्ठभूमि प्रॉम्प्ट बनाने के लिए, इसके बाद रिलायबलएड, पोस्टरमेकर, और फ्लक्स-फिल विज्ञापनों को उत्पन्न करने के लिए। पाठ पीढ़ी की तुलना क्यूवेन2.5, क्यूवेन3, और डीपसीक-आर1 के खिलाफ की गई थी।

प्रारंभिक बेसलाइन गुणात्मक परिणाम विज्ञापन पीढ़ी के लिए नीचे दिखाए गए हैं:

рд╕рд╛рдорд╛рдиреНрдп рд╡рд┐рдЬреНрдЮрд╛рдкрди-рдкреАрдврд╝реА рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдкрд░ рдкреНрд░рджрд░реНрд╢рдиред рдпреВрдиреА-рдПрдбрдЬреЗрди рдиреЗ рдЫрд╡рд┐-рдкреАрдврд╝реА рдмреЗрд╕рд▓рд╛рдЗрди рдХреЗ рд╕рдмрд╕реЗ рдордЬрдмреВрдд рдмреЗрд╕рд▓рд╛рдЗрди рдкрд░ рд╕реМрдВрджрд░реНрдп рдЧреБрдгрд╡рддреНрддрд╛ рдФрд░ рдкрд┐рдХрд╕реНрдХреЛрд░ рдореЗрдВ рдореЗрд▓ рдЦрд╛рддрд╛ рд╣реИ рдпрд╛ рдЙрдиреНрд╣реЗрдВ рдкрд╛рд░ рдХрд░рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рдПрдХреАрдХреГрдд рдЫрд╡рд┐ рдФрд░ рдкрд╛рда рдореЙрдбрд▓ рдиреЗ рд╕рднреА рдкрд╛рда-рдкреАрдврд╝реА рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдореЗрдВ рд╕рдмрд╕реЗ рдЙрдЪреНрдЪ рдореА-рд░реЛрдЧ рд╕реНрдХреЛрд░ рд╣рд╛рд╕рд┐рд▓ рдХрд┐рдпрд╛ред рдорд╛рдирд╡ рдореВрд▓реНрдпрд╛рдВрдХрди рдкрд░рд┐рдгрд╛рдо рджреЛрдиреЛрдВ рдореЙрдбрд▓рд┐рдЯреА рдореЗрдВ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзреА рд░рд╣реЗред

सामान्य विज्ञापन-पीढ़ी बेंचमार्क पर प्रदर्शन। यूनी-एडजेन ने छवि-पीढ़ी बेसलाइन के सबसे मजबूत बेसलाइन पर सौंदर्य गुणवत्ता और पिकस्कोर में मेल खाता है या उन्हें पार करता है, जबकि एकीकृत छवि और पाठ मॉडल ने सभी पाठ-पीढ़ी दृष्टिकोणों में सबसे उच्च मी-रोग स्कोर हासिल किया। मानव मूल्यांकन परिणाम दोनों मॉडलिटी में प्रतिस्पर्धी रहे।

इन परिणामों में, लेखकों का कहना है:

‘हमारी विधि इमेजरिवार्ड और मानव मूल्यांकन में दूसरे स्थान पर है, और सौंदर्य और उच्च उपलब्ध दर में अपने शीर्ष प्रदर्शन का प्रदर्शन करती है। जबकि रिलायबलएड मानव मूल्यांकन में आगे है, यह सौंदर्य मीट्रिक में काफी पीछे है। इसके विपरीत, पोस्टरमेकर और फ्लक्स-फिल दृश्य रूप से आकर्षक छवियां उत्पन्न करते हैं, लेकिन उपयोगिता सीमाओं से ग्रस्त हैं।

‘प्रभावी नियंत्रण दृष्टिकोणों के लिए धन्यवाद, हमारी विधि दृश्य सामग्री और व्यावहारिक उपयोगिता के बीच एक इष्टतम संतुलन हासिल करने में सफल रही है।’

व्यक्तिगत विज्ञापन पीढ़ी का मूल्यांकन 500 उपयोगकर्ताओं पर किया गया था, जिनके रिकॉर्ड किए गए इंटरैक्शन इतिहास थे, जिसमें ऊपर उल्लिखित पीबीएस का उपयोग छवि समानता को मापने के लिए किया गया था, और ब्लू और रोग का उपयोग उत्पन्न पाठ की तुलना में किया गया था जो उपयोगकर्ताओं ने वास्तव में क्लिक किए थे।

चूंकि सामान्य विज्ञापन बेसलाइन जो पिछले प्रयोग में उपयोग की जाती थी, उपयोगकर्ता इतिहास को शामिल नहीं कर सकती थी, तुलना व्यक्तिगतीकरण के लिए डिज़ाइन की गई प्रणालियों में स्थानांतरित कर दी गई थी। छवि पीढ़ी के लिए, फ्लक्स-कॉन्टेक्स्ट और पिजन को बेसलाइन के रूप में चुना गया था। फ्लक्स-कॉन्टेक्स्ट को ऐतिहासिक उपयोगकर्ता छवियों के ग्रिड के साथ-साथ लक्ष्य उत्पाद छवि के साथ आपूर्ति की गई थी, जिससे पूर्व वरीयताएं पीढ़ी को प्रभावित कर सकती थीं।

चूंकि पिजन मूल रूप से नियंत्रित उत्पाद प्लेसमेंट का समर्थन नहीं करता है, यूनी-एडजेन के लिए विकसित फोरग्राउंड-परसेप्शन मॉड्यूल को एकीकृत किया गया था ताकि उत्पाद संगति बनी रहे। पाठ पीढ़ी के लिए, क्यूवेन3 और डीपसीक-आर1 का उपयोग किया गया था, जिसमें ऐतिहासिक उत्पाद विवरण सीधे उनके निर्देश टेम्पलेट में डाले गए थे ताकि उपयोगकर्ता-विशिष्ट संदर्भ प्रदान किया जा सके:

рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреАрдврд╝реА рдкрд░рд┐рдгрд╛рдоред рдпреВрдиреА-рдПрдбрдЬреЗрди рдиреЗ рдлреНрд▓рдХреНрд╕-рдХреЙрдиреНрдЯреЗрдХреНрд╕реНрдЯ, рдкрд┐рдЬрди, рдХреНрдпреВрд╡реЗрди3, рдФрд░ рдбреАрдкрд╕реАрдХ-рдЖрд░1 рдХреЗ рдЦрд┐рд▓рд╛рдл рд╕рднреА рд░рд┐рдкреЛрд░реНрдЯ рдХрд┐рдП рдЧрдП рд╡реНрдпрдХреНрддрд┐рдЧрддреАрдХрд░рдг рдореАрдЯреНрд░рд┐рдХ рдореЗрдВ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛, рдЬрдмрдХрд┐ ablation рдЕрдзреНрдпрдпрди рд╕реЗ рдкрддрд╛ рдЪрд▓рд╛ рдХрд┐ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдбреЗрдЯрд╛, рдЙрддреНрдкрд╛рдж рд╕рдорд╛рдирддрд╛ рдирдореВрдирд╛рдХрд░рдг (рдкреАрдПрд╕рдПрд╕), рдФрд░ рдмрд╣реБрд╕реНрддрд░реАрдп рд╡рд░реАрдпрддрд╛ рдирд┐рд╖реНрдХрд░реНрд╖рдг рдиреЗ рд╕рднреА рдорд╛рдкрдиреАрдп рд▓рд╛рдн рдХрд╛ рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ред

व्यक्तिगत विज्ञापन पीढ़ी परिणाम। यूनी-एडजेन ने फ्लक्स-कॉन्टेक्स्ट, पिजन, क्यूवेन3, और डीपसीक-आर1 के खिलाफ सभी रिपोर्ट किए गए व्यक्तिगतीकरण मीट्रिक में बेहतर प्रदर्शन किया, जबकि ablation अध्ययन से पता चला कि ऐतिहासिक उपयोगकर्ता डेटा, उत्पाद समानता नमूनाकरण (पीएसएस), और बहुस्तरीय वरीयता निष्कर्षण ने सभी मापनीय लाभ का योगदान दिया।

यहाँ लेखक टिप्पणी करते हैं:

‘नीचे दी गई छवि में दिखाए गए परिणाम यह दर्शाते हैं कि फ्लक्स-कॉन्टेक्स्ट उपयोगकर्ता वरीयताओं को समझने में विफल रहता है और नमूना स्तर के शोर के प्रति संवेदनशील रहता है, जिससे मैदान से काफी विचलन होता है, जैसे कि मोटरसाइकिल छवि में प्रासंगिक आइटम।’

рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреАрдврд╝реА рдХреЗ рдЙрджрд╛рд╣рд░рдгред рдлреНрд▓рдХреНрд╕-рдХреЙрдиреНрдЯреЗрдХреНрд╕реНрдЯ, рдкрд┐рдЬрди, рдХреНрдпреВрд╡реЗрди3, рдФрд░ рдбреАрдкрд╕реАрдХ-рдЖрд░1 рдХреА рддреБрд▓рдирд╛ рдореЗрдВ, рдпреВрдиреА-рдПрдбрдЬреЗрди рдиреЗ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рджреНрд╡рд╛рд░рд╛ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдХреНрд▓рд┐рдХ рдХрд┐рдП рдЧрдП рд╡рд┐рдЬреНрдЮрд╛рдкрдиреЛрдВ рдХреЗ рджреГрд╢реНрдп рд╢реИрд▓реА рдФрд░ рд╕рдВрджрд░реНрдн рдХреЗ рд╕рд╛рде рдЕрдзрд┐рдХ рдирд┐рдХрдЯрддрд╛ рд╕реЗ рдореЗрд▓ рдЦрд╛рдиреЗ рд╡рд╛рд▓реА рдЫрд╡рд┐рдпрд╛рдВ рдЙрддреНрдкрдиреНрди рдХреАрдВ, рдЬрдмрдХрд┐ рдкрд╛рда рдЙрддреНрдкрдиреНрди рдХрд┐рдпрд╛ рдЬреЛ рдЧреНрд░рд╛рдЙрдВрдб-рдЯреНрд░реБрде рдЙрджрд╛рд╣рд░рдгреЛрдВ рдореЗрдВ рдореМрдЬреВрдж рдЙрддреНрдкрд╛рдж рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдФрд░ рдмрд┐рдХреНрд░реА рдмрд┐рдВрджреБрдУрдВ рдХрд╛ рдПрдХ рдмрдбрд╝рд╛ рд╣рд┐рд╕реНрд╕рд╛ рдкрдХрдбрд╝рддрд╛ рд╣реИред рдореЗрд▓ рдЦрд╛рдиреЗ рд╡рд╛рд▓реЗ рд╢рдмреНрдж рд╣рд░реЗ рд░рдВрдЧ рдореЗрдВ рд╣рд╛рдЗрд▓рд╛рдЗрдЯ рдХрд┐рдП рдЧрдП рд╣реИрдВред

व्यक्तिगत विज्ञापन पीढ़ी के उदाहरण। फ्लक्स-कॉन्टेक्स्ट, पिजन, क्यूवेन3, और डीपसीक-आर1 की तुलना में, यूनी-एडजेन ने उपयोगकर्ताओं द्वारा वास्तव में क्लिक किए गए विज्ञापनों के दृश्य शैली और संदर्भ के साथ अधिक निकटता से मेल खाने वाली छवियां उत्पन्न कीं, जबकि पाठ उत्पन्न किया जो ग्राउंड-ट्रुथ उदाहरणों में मौजूद उत्पाद विशेषताओं और बिक्री बिंदुओं का एक बड़ा हिस्सा पकड़ता है। मेल खाने वाले शब्द हरे रंग में हाइलाइट किए गए हैं।

गुणात्मक उदाहरण, लेखकों का तर्क है, यह संकेत देते हैं कि फ्लक्स-कॉन्टेक्स्ट और पिजन अक्सर उपयोगकर्ताओं द्वारा पहले क्लिक किए गए विज्ञापनों की दृश्य विशेषताओं से विचलित होने वाले आउटपुट उत्पन्न करते हैं; जबकि क्यूवेन3 और डीपसीक-आर1 द्वारा उत्पन्न पाठ ग्राउंड-ट्रुथ उदाहरणों में मौजूद कुछ बिक्री बिंदुओं को छोड़ देते हैं।

निष्कर्ष

इस परियोजना की उपयोगिता पूरी तरह से उपयोगकर्ता की सहमति पर निर्भर करती है, और इस ‘पूर्वानुमान’ प्रणाली की पहुंच को नियंत्रित डोमेन के बाहर बढ़ाने के लिए, अधिक आरामदायक उपयोगकर्ता अनुमतियों की आवश्यकता होगी, अधिकांश क्षेत्राधिकार में।

हालांकि, प्रणाली एक ऐसे हाइपरस्केल नेटवर्क प्रभाव पर निर्भर करती है जो ऐसे परिदृश्य में काम करता है, और इस बात पर कि उपयोगकर्ता इस प्रकार की वास्तव में व्यक्तिगत और यहां तक कि पूर्वानुमान विज्ञापन प्रणाली को उपयोगी के बजाय आक्रामक के रूप में देखेंगे या नहीं, खुदरा विक्रेता के ‘वॉल्ड गार्डन’ के भीतर।

 

* यह छवि शोध पत्रों में ‘संकलित आंकड़े’ की एक नई चिंताजनक प्रवृत्ति पर बनी है, जिसमें जो चित्र पहले 3-4 अलग-अलग आंकड़े होते थे, उन्हें अब एक में संकलित किया जाता है (मुख्य पत्र की अधिकतम लंबाई पर प्रस्तुति दिशानिर्देशों का पालन करने के लिए) और केवल संदर्भ सामग्री के रूप में उपयोग किया जाता है, अक्सर साथी कैप्शन में पर्याप्त व्याख्या के बिना। † ‘म’-पूर्वसर्ग एकाधिक उम्मीदवार पाठों की तुलना को इंगित करता है।

‘म’-पूर्वसर्ग एकाधिक उम्मीदवार पाठों की तुलना को इंगित करता है।

पहले प्रकाशित मंगलवार, 2 जून 2026। 18:21 ईईटी पर संशोधित अंतिम ‘दीवार’ को ‘वॉल्ड’ में बदलने के लिए।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai