Andersonin kulma

Uusi tutkimus ehdottaa todella “henkilökohtaista” mainontaa

mm
A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

Uudelleenmäärittelyssä “itsemainostamisesta”, uusi menetelmä kaivaa käyttäjän omat napsautukset luodakseen räätälöidyt verkkomainokset hänen omien erityisten historioidensa perusteella.

 

Vaikka mainosagentuurit ovat halukkaita kumottamaan idean, että mainoskanavat voivat palvella mainoksia perustuen siihen, mitä juuri puhuit kotona, mainosten “henkilökohtaisuuden” laajuus, jota näkyy verkkosivuilla ja sosiaalisen median sovelluksissa, on silti kerännyt otsikkoja viime vuosina.

MAINOSJEN parhaassa tapauksessa on aina ollut, että palveltu mainos on “täydellinen vastine” katselijalle. Julkisen vastustuksen rajoituksissa verkkoseurannasta ja mitä ehkäiseviä toimia käyttäjä on asentanut sellaisen seurannan estämiseksi, generatiivinen tekoäly (jättäen syrjään pelot LLM-mainonnasta hakuja seuraavassa maailmassa) on erittäin kykenevä tuottamaan mainoskuvia ja -tekstejä nopeasti riittävän ajan tasolla.

Kuitenkin, tutkimuksen pääasiallinen tavoite ja suurin osa toteutuksista tähän mennessä on perustunut kokoonpano-käyttäjätilastoihin, joten mikä tahansa katselijalle generoitu mainos perustuisi katselijan arveltuun kokoonpanoryhmään eikä hänen omiin yksilöllisiin historiaan.

Nyt, uusi tutkimusyhteistyö Kiinan ja Yhdysvaltojen välillä esittää järjestelmän mainoskuvien ja -tekstien generoimiseksi yksittäisille käyttäjille heidän omien aiempien napsautusten perusteella, kun he ovat kirjautuneet sivustolle, ja siirtymällä cohort-pohjaisista oletuksista, jotka ovat hallinneet suurinta osaa henkilökohtaista mainontatutkimusta tähän asti:

Esimerkki yksilöllisistä mainoksista. Ilman käyttäjän historiaa kontekstina, täydellinen vaikutus voidaan ainoastaan kuvitella. Lähde - https://arxiv.org/pdf/2605.12138

Esimerkki yksilöllisistä mainoksista. Ilman käyttäjän historiaa kontekstina, täydellinen vaikutus voidaan ainoastaan kuvitella. Lähde

Epätavallisesti, uusi lähestymistapa hylkää diffuusiopohjaiset mallit ja hyväksyy autoregressiivisen arkkitehtuurin – pääasiallinen ero on, että diffuusiomallit parantavat kuvaa vähitellen visuaalisesta melusta, kun taas autoregressiiviset mallit generoivat sisältöä kappale kerrallaan, ennustamalla jokaisen uuden elementin kaikista aiemmista:

Walled Garden

On syytä huomata ehdotetun työn laajuus, joka ei tarjoa mainostajille tapaa kiertää uusia toimenpiteitä kolmannen osapuolen seurannasta, vaan antaa riittävän suurelle myyjälle valtuuden täyttää kirjautunut asiakas mainoksilla, jotka liittyvät suoraan kyseiseen henkilöön.

Tämä ei välttämättä rajoitu asiakkaisiin, jotka ovat parhaillaan selaamassa myyjän omaa sivustoa: riippuen siitä, kuinka paljon käyttäjä on myyjälle antanut valtuuden seurata häntä muiden sivustojen yli, he voivat nähdä kohdennetut mainokset useilla muilla sivustoilla, jotka osallistuvat mainoshuutokauppoihin, joissa myyjä itse osallistuu.

Tällainen mainonnan ulottuvuus on yleensä rajoitettu suurimittakaavaisiin, suurimittakaavaisiin myyjiin, kuten Amazoniin länsimaissa (ja huomautamme, että Kiinan vastaavan kokoinen myyjä on osallistunut uuteen työhön – ks. alla), vaikka mikä tahansa samankaltainen huolenaihe (kuten suosittu sosiaalisen median alusta) voisi teoriassa luoda vastaavan generatiivisen kehyksen.

Uusi artikkeli on otsikoitu Suunnittele mainoksesi: Henkilökohtainen mainonnan kuva- ja tekstigenerointi yhdistetyillä autoregressiivisillä malleilla, ja se tulee 18 kirjoittajalta Sun Yat-Sen yliopistosta Guangzhouda, Northeastern yliopistosta ja Kiinan suurimmalta myyjältä JD.com:ilta (jolla on arvokas pääsy ostajien historiaan ja tottumuksiin). Koodi on julkaistu GitHubissa, ja asiaankuuluvat tarkistuspisteet on tehty saataville myös.

Data ja menetelmä

Tutkimushankkeessa rakennettu tietokanta on nimeltään Henkilökohtainen mainonnan kuva- ja teksti (PAd1M), ja se perustuu JD.com:n tarjoamaan tietoon. Kirjoittajat toteavat:

‘Jokainen tuote tarjoaa yleensä yli kymmenen kandidaattikuvaa ja -tekstiä, varmistaen, että moninaiset mieltymykset voidaan havaita täydellisesti. Voidakseen luotettavasti mallintaa mieltymyksiä, keräämme käyttäjien täydelliset napsautushistoriat sekä kuvista että teksteistä, suodattaen pois käyttäjät, joilla ei ole riittävästi toimintaa vähentämään melua.’

‘Tämä tuottaa tietokannan, jossa on 1 145 371 käyttäjää, 18 923 555 napsautettua tuotekuvaa ja -tekstiä, keskimäärin yli 16 moniaistista historiallista käyttäytymistä käyttäjää kohden.’

Kunkin käyttäjän kohdalla yksi aiemmin napsautettu kuva- ja tekstipari valittiin kohde-esimerkiksi, minkä jälkeen tuote itsessään eristettiin kuvasta Grounded SAM:n avulla.

Myyjän toimittamat kuvaukset ja myyntipisteet liitettiin sitten tietueeseen, luoden tietokannan, jossa jokainen kohde-mainos on yhdistetty läpinäkyvään tuotekuvaan; rakenteelliseen tuotetietoon; ja aiempien kuva- ja tekstivälien historiaan, joka on tarkoitettu käyttäjän aiempien mieltymysten ja preferenssien havaitsemiseksi:

Käyttäjän profiili PAd1M-tietokannasta, jossa on kohde-mainos tuotetiedon ja aiempien kuva- ja tekstivälien historian kanssa, joka on tarkoitettu mallintamaan käyttäjän preferenssejä.

Käyttäjän profiili PAd1M-tietokannasta, jossa on kohde-mainos tuotetiedon ja aiempien kuva- ja tekstivälien historian kanssa, joka on tarkoitettu mallintamaan käyttäjän preferenssejä.

Tuloksena oleva tietokanta tarjoaa yli miljoonan käyttäjän ja lähes 19 miljoonan napsautetun kuvan ja tekstin, ja kirjoittajat toteavat, että kokoelma on huomattavasti suurempi kuin aiemmat henkilökohtaiset tietokannat.

Lisäksi tieto, poiketen aiheen tutkimuksen tyylistä, yhdistää sekä kuvia että tekstejä, sallien käyttäjien mieltymyksien mallinnuksen useilla eri tasoilla, eikä ainoastaan yhdessä toimialassa.

PAd1M sisältää myös yksilöllisen preferenssin seurannan; toisin kuin aiemmat mainostietokannat, jotka on rakennettu suurten ryhmien klikkausnopeuksien ympärille, PAd1M yhdistää vuorovaikutukset tiettyihin käyttäjiin JD.com:n tietojen perusteella.

Mittareina, standardien BLEU:n ja ROUGE:n lisäksi, tutkijat kehittivät oman mitta-työkalun nimeltään Tuotetan taustan samankaltaisuus (PBS). Perustuen aiempaan MoCo-v3-aloitteeseen, PBS on koulutettu 681 123 kuvaparilla, jotka esittävät samaa tuotetta eri taustoja vasten, sallien mittarin keskittyä kontekstuaaliseen vaihteluun itse tuotetta.

Tuotetan taustan samankaltaisuus (PBS) antaa selvästi erilaiset samankaltaisuuspisteet mainoksille, jotka sisältävät saman tuotteen, mutta asettavat sen eri visuaalisiin konteksteihin, toisin kuin kilpailevat mittarit, jotka tuottavat paljon pienempiä eroja.

Tuotetan taustan samankaltaisuus (PBS) antaa selvästi erilaiset samankaltaisuuspisteet mainoksille, jotka sisältävät saman tuotteen, mutta asettavat sen eri visuaalisiin konteksteihin. Toisin kuin kilpailevat mittarit, jotka tuottavat paljon pienempiä eroja.

Koulutuksen aikana jokainen kuva pariksi itsensä kanssa positiivisena esimerkkinä, kun taas kuva samasta tuotteesta asetettuna erilaiseen asetelmaan toimi negatiivisena esimerkkinä, koulutusstrategiana, jolla pyrittiin lisäämään herkkyyttä taustakontekstiin. Arviointitulokset, artikkelin mukaan, osoittavat suurempia samankaltaisuuseroja vastaavien ja epävastaavien taustojen välillä kuin mitä CLIP, DINO v3 tai mainittu MoCov3 tuottavat.

Tutkijoiden Yhdistetty mainosgeneraattori (Uni-AdGen) -malli käyttää autoregressiivista visuaalista kieliarkkitehtuuria mainoskuvien ja -tekstien generoimiseen. Prosessi on johdettu rakenteellisesta ohjeesta, joka sisältää tehtävän määrittelyn ja tuotekuvauksen sekä myyntipisteitä:

Menetelmän yleiskatsaus.

Menetelmän yleiskatsaus.

Erityiset rajaavat merkit määrittävät mainoskopion osan sekvenssistä. Kun teksti on generoitu, omistautunut kuva-merkki laukaisee kuvan generoinnin, kun taas sulkeva kuva-merkki merkitsee sen valmistumisen, ja generoidut merkit lähetetään erillisiin teksti- ja kuva-dekoodereihin.

Kuvien osalta LlamaGenin VQ-GAN-dekooderi muuttaa diskreetit kuvamerkit takaisin pikseleiksi.

Näin yhdistetty arkkitehtuuri generoi tekstiä ja kuvia yhden seuraavan merkin ennustus-kehyksessä, sen sijaan, että se riippuisi erillisistä putkistoista – menetelmä, jota on käytetty aiemmissa mainosjärjestelmissä samankaltaisella alueella.

Koulutuksen aikana malli oppii molemmat modaliteetit yhdessä, tekstimerkit ennustetaan syötejonoa ja aiemmin generoituja tekstejä vastaan. Kuva-merkit ennustetaan syötejonosta, generoiduista teksteistä ja aiemmin generoiduista kuva-merkeistä.

Pidäkseen generoituja mainoksia yhteydessä edistettävään tuotteeseen, Uni-AdGen käyttää etumaisen havainnon moduulia perustuen DINO v2:iin, jotta voidaan injektoida tietoa läpinäkyvistä tuotekuvista autoregressiiviseen malliin.

Ohjeistuksen mukainen säätö (kouluttaminen malli seuraamaan tuotespesifejä generointiohjeita, jotka on johdettu kuvauksista ja myyntipisteistä) käytettiin myös parantamaan sitoutumista myyjän toimittamiin kuvauksiin ja myyntipisteisiin, GPT-4o:n avulla suodatettaessa sopimattomia koulutus-esimerkkejä:

Henkilökohtaisuus perustui karkeasta hienoon preferenssimallintamiseen. Historialliset vuorovaikutukset suodatettiin ensin Tuotetason samankaltaisuuden näytteenottoputkistolla suosimaan tuotteita, jotka muistuttavat kohdetuotetta. Jäljelle jäävät tietueet käsiteltiin Monimodaalisen preferenssin poistamisvaiheella, joka on suunniteltu tunnistamaan visuaaliset ja tekstuaaliset elementit, jotka todennäköisesti heijastavat käyttäjän mieltymyksiä – nämä preferenssit sisällytetään kehotteeseen ohjaamaan generointia.

Testit

Kirjoittajat toteavat, että heidän testauslähestymistapa on johdettu DeepSeekin Janus-Pro 7B:sta.

Malli koulutettiin eräkoko neljä, AdamW-optimoinnilla oppiamisnopeudella 5e-5. Perusmalli hienosäädetään LoRA:n avulla, taustan havainnon ja monimodaalisen preferenssin poiston täysin hienosäädetty (eli toisin kuin LoRA, perusmallin painot muutettiin pysyvästi).

Kaikki testit suoritettiin NVIDIA B200 GPU:lla, jossa on 192 GB VRAM:ia. Kuvien generoimiseksi PickScore, ImageReward ja ASE käytettiin visuaalisen laadun arviointiin, kun taas m-BLEU ja m-ROUGE käytettiin mainostekstin arviointiin. Ihmisarvioijat arvioivat myös kuvien realismin ja sommittelun laadun, sekä tekstin tarkin ja virtuositeetin, kaikki mitat laskettiin 500 tuotteen yli.

Kuvien generoimiseksi vertailukohteina käytettiin Qwen2.5-VL ja GPT-4o taustakuvien luomiseksi tuotekuvista, seurattuina ReliableAd, PosterMaker ja Flux-Fill lopullisten mainosten generoimiseksi. Tekstigeneroinnin vertailu suoritettiin Qwen2.5, Qwen3 ja DeepSeek-R1 vastaan.

Alkuvaiheiset vertailutulokset mainosgeneroinnista ovat alla:

Suorituskyky yleisessä mainosgeneroinnin vertailussa. Uni-AdGen vastasi tai ylitti vahvimpia kuvageneroinnin vertailukohteita esteettisessä laadussa ja PickScoressa, kun taas yhdistetty kuva- ja tekstimalli saavutti korkeimman m-ROUGE-pisteen kaikissa tekstigeneroinnin lähestymistavoissa. Ihmisarvioijien tulokset säilyivät kilpailukykyisinä molemmissa modaliteeteissa.

Suorituskyky yleisessä mainosgeneroinnin vertailussa. Uni-AdGen vastasi tai ylitti vahvimpia kuvageneroinnin vertailukohteita esteettisessä laadussa ja PickScoressa, kun taas yhdistetty kuva- ja tekstimalli saavutti korkeimman m-ROUGE-pisteen kaikissa tekstigeneroinnin lähestymistavoissa. Ihmisarvioijien tulokset säilyivät kilpailukykyisinä molemmissa modaliteeteissa.

Näistä tuloksista kirjoittajat toteavat:

‘[Meidän] menetelmä saavuttaa parhaimman suorituskyvyn ImageRewardissa ja sijoittuu toiseksi sekä PickScoressa että ihmisarvioijien arvioissa, osoittaen sen ylivoimaisen suorituskyvyn esteettisyydessä ja saatavuudessa. Vaikka ReliableAd johtaa ihmisarvioijien arvioissa, se jää merkittävästi jälkeen esteettisissä mittareissa. Toisaalta, PosterMaker ja Flux-Fill generoivat visuaalisesti miellyttäviä kuvia, mutta kärsivät merkittävistä käytettävyyden rajoituksista.

‘Kiitoksena tehokkaista lähestymistavoista, menetelmämme saavuttaa onnistuneesti visuaalisen sisällön ja käytännön hyödyllisyyden tasapainon.’

Henkilökohtainen mainosgenerointi arvioitiin 500 käyttäjällä, joilla oli tallennettu vuorovaikutushistoria, käyttäen mainittua PBS:ää kuvien samankaltaisuuden arviointiin ja BLEU:ta sekä ROUGE:a generoidun tekstin vertaamiseksi tuotteisiin, joita käyttäjät olivat todella napsauttaneet.

Koska yleiset mainosvertailukohteet eivät voineet sisällyttää käyttäjien historioita, vertailut siirrettiin järjestelmiin, jotka on suunniteltu henkilökohtaisuutta varten. Kuvageneroimisessa Flux-Kontext ja Pigeon valittiin vertailukohteiksi. Flux-Kontext toimitettiin ruudukolla aiemmista käyttäjän kuvista yhdessä kohdetuotekuvan kanssa, sallien aiempien preferenssien vaikuttavan generointiin.

Koska Pigeon ei tuke natiivisti ohjattua tuotteen asettamista, Uni-AdGeniin kehitetty taustan havaintomoduuli integroitiin säilyttämään tuotteen johdonmukaisuutta. Tekstigeneroimisessa Qwen3 ja DeepSeek-R1 käytettiin, historiallisten tuotekuvauksien sisällyttäessä suoraan niiden ohjeistustemplaatteihin antaen käyttäjäkohtaisen kontekstin:

Henkilökohtaisen mainosgeneroinnin tulokset. Uni-AdGen ylitti Flux-Kontextin, Pigeonin, Qwen3:n ja DeepSeek-R1:n kaikissa ilmoitettuissa henkilökohtaisuuden mittareissa, kun taas ablaatiotutkimus osoitti, että historiallinen käyttäjädata, Tuotetason samankaltaisuuden näytteenotto ja monimodaalinen preferenssin poisto kaikki tuottivat mitattavissa olevia voittoja.

Henkilökohtaisen mainosgeneroinnin tulokset. Uni-AdGen ylitti Flux-Kontextin, Pigeonin, Qwen3:n ja DeepSeek-R1:n kaikissa ilmoitettuissa henkilökohtaisuuden mittareissa, kun taas ablaatiotutkimus osoitti, että historiallinen käyttäjädata, Tuotetason samankaltaisuuden näytteenotto ja monimodaalinen preferenssin poisto kaikki tuottivat mitattavissa olevia voittoja.

Tässä kirjoittajat kommentoivat:

‘Visualisoidut tulokset [alla olevassa kuvassa] osoittavat, että Flux-Kontext ei ymmärrä käyttäjien preferenssejä ja on altis otsonoiseille, johtuen merkittävistä poikkeamista todellisista arvoista, kuten mainoksessa olevat asiattomat tuotteet moottoripyöräkuvassa.’

<img class="size-full wp-image-425713" src="https://www.unite.ai/wp-content/uploads/2026/06/figure-4.jpg" alt="Esimerkit henkilökohtaisesta mainosgeneroinnista. Uni-AdGen tuotti kuvia, jotka vastasivat läheisemmin visuaalista tyyliä ja kontekstia mainoksissa, joita käyttäjät olivat todella napsauttaneet, ja generoi tekstiä, joka sisälsi suuremman osan tuotteen ominaisuuksista ja myyntipisteistä, jotka olivat läsnä todellisissa esimerkeissä. Vastaaavat termit on korostettu vihreällä.

Laadulliset esimerkit, kirjoittajien mukaan, osoittavat, että Flux-Kontext ja Pigeon usein tuottivat tuloksia, jotka poikkesivat visuaalisista ominaispiirteistä mainoksissa, joita käyttäjät olivat aiemmin napsauttaneet; kun taas Qwen3 ja DeepSeek-R1 generoimat tekstit jättivät puuttumaan joitain myyntipisteitä, jotka olivat läsnä todellisissa esimerkeissä.

Johtopäätös

Tämän hankkeen hyödyllisyys riippuu täysin käyttäjien suostumuksesta, ja laajentaa tämän “ennustavan” järjestelmän ulottuvuutta sen hallitseman käyttäjän historian ulkopuolelle – tässä tapauksessa JD.com – edellyttää vielä rennompia käyttäjien nimenomaisia lupia useimmissa alueissa.

Kuitenkin, järjestelmä perustuu sellaisen hyperskaalaisen verkostovaikutuksen kaltaiseen, joka on voimassa tässä skenaariossa, ja (ehkä hieman toiveikkkaasti) ajatukselle, että käyttäjät löytävät tämänkaltaisen todella henkilökohtaisen ja jopa ennakkoivat mainosjärjestelmän hyödylliseksi eikä häiritseväksi, ainakin suurimittakaavaisen myyjän “aidatun puutarhan” kontekstissa.

 

* Tämä kuva edustaa uutta, huolestuttavaa trendiä ‘kokoamisluvassa’ tutkimuspaperissa, jossa aiemmin erilliset kuvat (3-4 eri kuvaa) yhdistetään yhdeksi (julkaisuohjeiden mukaisesti enimmäisartikkelin pituuden rajoituksissa) ja käytetään ainoastaan viittauksena, usein ilman riittävää selitystä liittyvässä kuvatekstissä.

‘m’-etuliite osoittaa vertailua useiden ehdokastekstien kanssa.

Julkaistu ensimmäisen kerran tiistaina, 2. kesäkuuta 2026. Muutettu 18:21 EET oikaistaaksesi viimeisen ‘seinän’ ‘aidatun’ viimeisessä kappaleessa.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]