Povežite se s nama

Andersonov kut

Tražite 'sove i guštere' u publici oglašivača

mm
Slike iz rada 'Praćenje pozornosti gledatelja tijekom online oglasa' (https://arxiv.org/pdf/2504.06237)

Budući da je sektor online oglašavanja procijenjen S obzirom na to da je 740.3. godine potrošio 2023 milijarde američkih dolara, lako je razumjeti zašto oglašivačke tvrtke ulažu znatna sredstva u ovaj poseban smjer istraživanja računalnog vida.

Iako otočna i zaštitna, industrija povremeno objavljuje studije koje upućuju na napredniji vlastiti rad u prepoznavanju lica i pogleda – uključujući prepoznavanje dobi, središnji dio statistike demografske analize:

Procjena dobi u kontekstu oglašavanja u prirodi zanimljiva je oglašivačima koji možda ciljaju određenu demografsku skupinu. U ovom eksperimentalnom primjeru automatske procjene dobi lica, dob izvođača Boba Dylana prati se kroz godine. Izvor: https://arxiv.org/pdf/1906.03625

Procjena dobi u kontekstu oglašavanja u prirodi zanimljiva je oglašivačima koji možda ciljaju određenu dobnu demografsku skupinu. U ovom eksperimentalnom primjeru automatske procjene dobi lica, dob izvođača Boba Dylana prati se kroz godine. Izvor: https://arxiv.org/pdf/1906.03625

Ove studije, koje se rijetko pojavljuju u javnim repozitorijima kao što je Arxiv, koriste legitimno regrutirane sudionike kao osnovu za analizu vođenu umjetnom inteligencijom koja ima za cilj utvrditi u kojoj mjeri i na koji način se gledatelj bavi oglasom.

Dlibov histogram usmjerenih gradijenata (HoG) često se koristi u sustavima za procjenu lica. Izvor: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Dlibov histogram orijentiranih gradijenata (HoG) često se koristi u sustavima za procjenu lica. Izvor: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Životinjski instinkt

U tom smislu, naravno, reklamna industrija je zainteresirana za utvrđivanje lažno pozitivnih rezultata (slučajeva kada analitički sustav pogrešno interpretira radnje ispitanika) i za uspostavljanje jasnih kriterija za to kada osoba koja gleda reklame nije u potpunosti angažirana sa sadržajem.

Što se tiče oglašavanja na ekranima, studije se obično usredotočuju na dva problema u dva okruženja. Okruženja su 'desktop' ili 'mobilna', od kojih svako ima posebne karakteristike koje zahtijevaju prilagođena rješenja za praćenje; a problemi - sa stajališta oglašivača - predstavljeni su ponašanje sove i ponašanje guštera – sklonost gledatelja da ne obraćaju punu pozornost na oglas koji je ispred njih.

Primjeri ponašanja sove i guštera u predmetu projekta istraživanja oglašavanja. Izvor: https://arxiv.org/pdf/1508.04028

Primjeri ponašanja 'Sove' i 'Guštera' u temi istraživačkog projekta oglašavanja. Izvor: https://arxiv.org/pdf/1508.04028

Ako tražite daleko iz namjeravane reklame cijelom glavom, to je ponašanje 'sove'; ako vam je položaj glave statičan, ali su vam oči odlutajući s ekrana, ovo je ponašanje 'guštera'. Što se tiče analitike i testiranja novih oglasa u kontroliranim uvjetima, to su ključne radnje koje sustav mora moći uhvatiti.

Novi rad, rezultat akvizicije SmartEye-a tvrtke Affectiva, bavi se tim problemima, nudeći arhitekturu koja koristi nekoliko postojećih okvira kako bi pružila kombinirani i povezani skup značajki za sve potrebne uvjete i moguće reakcije - te kako bi se moglo utvrditi je li gledatelju dosadno, je li angažiran ili je na neki način udaljen od sadržaja koji oglašivač želi da gleda.

Primjeri pravih i lažnih pozitivnih rezultata koje je otkrio novi sustav pažnje za različite signale ometanja, prikazani odvojeno za stolna računala i mobilne uređaje. Izvor: https://arxiv.org/pdf/2504.06237

Primjeri pravih i lažnih pozitivnih rezultata koje je otkrio novi sustav pažnje za različite signale ometanja, prikazani odvojeno za stolna računala i mobilne uređaje. Izvor: https://arxiv.org/pdf/2504.06237

Autori navode*:

'ograničen istraživanja zadubio se u praćenje pozornosti tijekom online oglasa. Dok su ove studije bile usredotočene na procjenu položaja glave ili smjera pogleda kako bi se identificirali slučajevi skrenutog pogleda, one zanemaruju kritične parametre kao što su vrsta uređaja (stolno računalo ili mobilni), položaj kamere u odnosu na zaslon i veličina zaslona. Ovi čimbenici značajno utječu na otkrivanje pažnje.

'U ovom radu predlažemo arhitekturu za otkrivanje pozornosti koja obuhvaća otkrivanje različitih distraktora, uključujući ponašanje sove i guštera gledanja izvan ekrana, govora, pospanosti (kroz zijevanje i dugotrajnog zatvaranja očiju) i ostavljanje zaslona bez nadzora.

„Za razliku od prethodnih pristupa, naša metoda integrira značajke specifične za uređaj poput vrste uređaja, položaja kamere, veličine zaslona (za stolna računala) i orijentacije kamere (za mobilne uređaje) s procjenom sirovog pogleda kako bi se poboljšala točnost detekcije pažnje.“

The novo djelo naslovljen je Praćenje pozornosti gledatelja tijekom online oglasa, a dolazi od četvero istraživača u Affectivi.

Metoda i podaci

Uglavnom zbog tajnosti i zatvorenog koda takvih sustava, novi rad ne uspoređuje autorov pristup izravno s konkurentima, već svoje nalaze predstavlja isključivo kao studije ablacije; rad se također općenito ne pridržava uobičajenog formata literature o računalnom vidu. Stoga ćemo pogledati istraživanje onako kako je predstavljeno.

Autori naglašavaju da se samo ograničeni broj studija bavi otkrivanjem pozornosti posebno u kontekstu online oglasa. u AFFDEX SDK, koji nudi prepoznavanje više lica u stvarnom vremenu, pozornost se zaključuje isključivo na temelju položaja glave, a sudionici se označavaju kao nepažljivi ako im kut glave prijeđe definirani prag.

Primjer iz AFFDEX SDK, Affectiva sustava koji se oslanja na pozu glave kao pokazatelj pažnje. Izvor: https://www.youtube.com/watch?v=c2CWb5jHmbY

Primjer iz AFFDEX SDK, Affectiva sustava koji se oslanja na pozu glave kao pokazatelj pažnje. Izvor: https://www.youtube.com/watch?v=c2CWb5jHmbY

u Suradnja 2019 Automatsko mjerenje vizualne pozornosti na videosadržaj pomoću dubokog učenja, skup podataka od oko 28,000 sudionika označen je za različita nepažljiva ponašanja, uključujući gledajući u stranu, zatvarajući oči, ili uključenje u nepovezane aktivnosti, i CNN-LSTM model osposobljen za otkrivanje pažnje iz izgleda lica tijekom vremena.

Iz dokumenta iz 2019., primjer koji ilustrira predviđena stanja pažnje za gledatelja koji gleda videosadržaj na ekranu. Izvor: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Iz dokumenta iz 2019., primjer koji ilustrira predviđena stanja pažnje za gledatelja koji gleda videosadržaj. Izvor: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Međutim, primjećuju autori, ti raniji napori nisu uzeli u obzir faktore specifične za uređaj, kao što je je li sudionik koristio stolno računalo ili mobilni uređaj; niti su uzeli u obzir veličinu zaslona ili položaj kamere. Osim toga, sustav AFFDEX usredotočen je samo na prepoznavanje skretanja pogleda i izostavlja druge izvore odvlačenja pažnje, dok rad iz 2019. pokušava otkriti širi skup ponašanja – ali njegova upotreba jednog plitkog CNN možda, navodi list, nisu bili primjereni za ovaj zadatak.

Autori primjećuju da neka od najpopularnijih istraživanja u ovoj liniji nisu optimizirana za testiranje oglasa, koje ima drugačije potrebe u usporedbi s domenama kao što su vožnja ili obrazovanje – gdje su položaj kamere i kalibracija obično unaprijed određeni, umjesto toga oslanjajući se na nekalibrirane postavke i radeći unutar ograničenog raspona pogleda stolnih i mobilnih uređaja.

Stoga su osmislili arhitekturu za otkrivanje pozornosti gledatelja tijekom online oglasa, koristeći dva komercijalna alata: AFFDEX 2.0 i SmartEye SDK.

Primjeri analize lica iz AFFDEX 2.0. Izvor: https://arxiv.org/pdf/2202.12059

Primjeri analize lica iz AFFDEX 2.0. Izvor: https://arxiv.org/pdf/2202.12059

Ovi prethodni radovi izdvajaju nisku razinu značajke kao što su izrazi lica, položaj glave i smjer pogleda. Te se značajke zatim obrađuju kako bi proizveli indikatore više razine, uključujući položaj pogleda na zaslonu; zijevanje; i govoreći.

Sustav identificira četiri vrste distrakcije: pogled izvan ekrana; mamurluk,; govorenje, Te nenadzirani zasloni. Također prilagođava analizu pogleda prema tome nalazi li se gledatelj na stolnom ili mobilnom uređaju.

Skupovi podataka: Gaze

Autori su koristili četiri skupa podataka kako bi osnažili i procijenili sustav za otkrivanje pažnje: tri se pojedinačno usredotočuju na ponašanje pogleda, govor i zijevanje; a četvrti izvučen iz sesija testiranja oglasa u stvarnom svijetu koji sadrži mješavinu vrsta distrakcije.

Zbog specifičnih zahtjeva rada, prilagođeni skupovi podataka izrađeni su za svaku od ovih kategorija. Svi odabrani skupovi podataka potječu iz vlasničkog repozitorija koji sadrži milijune snimljenih sesija sudionika koji gledaju oglase u kućnim ili radnim okruženjima, koristeći postavku temeljenu na webu, uz informirani pristanak – a zbog ograničenja tih ugovora o pristanku, autori navode da skupovi podataka za novi rad ne mogu biti javno dostupni.

Za konstruiranje piljiti skupa podataka, sudionici su zamoljeni da prate pokretnu točku preko različitih točaka na ekranu, uključujući njegove rubove, a zatim da skrenu pogled sa zaslona u četiri smjera (gore, dolje, lijevo i desno) s nizom koji se ponavlja tri puta. Na taj je način uspostavljen odnos između obuhvata i pokrivenosti:

Snimke zaslona koje prikazuju video podražaj pogleda na (a) radnoj površini i (b) mobilnim uređajima. Prvi i treći okvir prikazuju upute za praćenje pokretne točke, dok drugi i četvrti pozivaju sudionike da odvrate pogled od ekrana.

Snimke zaslona koje prikazuju video podražaj pogleda na (a) radnoj površini i (b) mobilnim uređajima. Prvi i treći okvir prikazuju upute za praćenje pokretne točke, dok drugi i četvrti pozivaju sudionike da odvrate pogled od ekrana.

Segmenti pokretnih točaka označeni su kao pažljiv, a segmenti izvan ekrana kao nepažljiv, stvarajući označeni skup podataka pozitivnih i negativnih primjera.

Svaki je video trajao otprilike 160 sekundi, s odvojenim verzijama stvorenim za desktop i mobilne platforme, svaka s rezolucijom od 1920×1080 odnosno 608×1080.

Prikupljeno je ukupno 609 video zapisa, koji se sastoje od 322 snimke sa stolnih računala i 287 snimaka sa mobilnih uređaja. Oznake su primijenjene automatski na temelju videosadržaja i skupa podataka Split u 158 uzoraka za obuku i 451 za testiranje.

Skupovi podataka: Govor

U ovom kontekstu, jedan od kriterija koji definiraju „nepažnju“ jest kada osoba govori u ime duže od jedne sekunde (koji bi slučaj mogao biti trenutni komentar ili čak kašalj).

Budući da kontrolirano okruženje ne snima niti analizira zvuk, govor se zaključuje promatranjem unutarnjeg kretanja procijenjenih orijentira lica. Stoga otkriti govorenje bez zvuka, autori su stvorili skup podataka koji se u potpunosti temelji na vizualnom unosu, izvučenom iz njihovog internog repozitorija i podijeljenom u dva dijela: prvi od njih je sadržavao približno 5,500 videozapisa, svaki ručno označen od strane tri anotatora kao govoreći ili negovoreći (od toga je 4,400 korišteno za obuku i provjeru valjanosti, a 1,100 za testiranje).

Drugi se sastojao od 16,000 10,500 sesija automatski označenih na temelju vrste sesije: 5,500 XNUMX sudionika u prikazivanju koji tiho gledaju oglase i XNUMX XNUMX sudionika u emisiji koji izražavaju mišljenja o markama.

Skupovi podataka: zijevanje

Iako postoje neki 'zijevajući' skupovi podataka, uključujući YawDD i Umor vozača, autori tvrde da nijedan nije prikladan za scenarije testiranja oglasa, budući da sadrže bilo koji simuliran zijeva ili sadrži iskrivljenja lica koja bi se mogla zamijeniti s strah, ili druge, ne-zijevne radnje.

Stoga su autori upotrijebili 735 videozapisa iz svoje interne zbirke, odabirući sesije koje će vjerojatno sadržavati a pad čeljusti traje više od jedne sekunde. Svaki su videozapis ručno označila tri anotatora kao prikazani aktivan or neaktivno zijevanje. Samo 2.6 posto okvira sadržavalo je aktivno zijevanje, naglašavajući neravnotežu klase, a skup podataka je podijeljen na 670 videozapisa za obuku i 65 za testiranje.

Skupovi podataka: odvraćanje pažnje

The distrakcija skup podataka također je izvučen iz autorovog repozitorija za testiranje oglasa, gdje su sudionici gledali stvarne oglase bez dodijeljenih zadataka. Ukupno 520 sesija (193 na mobilnim uređajima i 327 na stolnim računalima) nasumično je odabrano i ručno označeno od strane tri anotatora kao pažljiv or nepažljiv.

Uključeno nepažljivo ponašanje pogled izvan ekrana, govorenje, mamurluki nenadzirani zasloni. Sesije obuhvaćaju različite regije diljem svijeta, s češćim snimanjem sa stolnog računala, zbog fleksibilnog postavljanja web kamere.

Pažnja Modeli

Predloženi model pažnje obrađuje vizualne značajke niske razine, naime izraze lica; poza glave; i smjer pogleda – ekstrahiran kroz gore spomenuti AFFDEX 2.0 i SmartEye SDK.

Oni se zatim pretvaraju u indikatore visoke razine, pri čemu svaki distraktor obrađuje zaseban binarni klasifikator obučen na vlastitom skupu podataka za neovisnu optimizaciju i procjenu.

Shema za predloženi sustav praćenja.

Shema za predloženi sustav praćenja.

The piljiti model određuje gleda li gledatelj u zaslon ili od njega pomoću normaliziranih koordinata pogleda, s odvojenom kalibracijom za stolna računala i mobilne uređaje. Pomaganje ovom procesu je linearno Potporni vektorski stroj (SVM), obučen o prostornim i vremenskim značajkama, koji uključuje a memorijski prozor za izglađivanje brzih promjena pogleda.

Otkriti govoreći bez zvuka, sustav je koristio izrezana područja usta i 3D-CNN treniran na razgovornim i nekoverzacijskim video segmentima. Oznake su dodijeljene na temelju vrste sesije, s vremenskim izglađivanjem koje smanjuje lažne pozitivne rezultate koji mogu proizaći iz kratkih pokreta usta.

zijevaiući otkriven je korištenjem izrezivanja slike preko cijelog lica, kako bi se uhvatili širi pokreti lica, s 3D-CNN-om uvježbanim na ručno označenim okvirima (iako je zadatak bio kompliciran niskom frekvencijom zijevanja u prirodnom gledanju i njegovom sličnošću s drugim izrazima).

Napuštanje ekrana identificiran je kroz odsutnost lica ili ekstremnu pozu glave, s predviđanjima a stablo odluke.

Konačni status pažnje utvrđeno je korištenjem fiksnog pravila: ako je bilo koji modul otkrio nepažnju, gledatelj je bio označen nepažljiv – pristup koji daje prednost osjetljivosti i koji je zasebno podešen za desktop i mobilni kontekst.

Testovi

Kao što je ranije spomenuto, testovi slijede ablativnu metodu, gdje se komponente uklanjaju i bilježi učinak na ishod.

Različite kategorije percipirane nepažnje identificirane u studiji.

Različite kategorije percipirane nepažnje identificirane u studiji.

Model pogleda identificirao je ponašanje izvan ekrana kroz tri ključna koraka: normaliziranje sirovih procjena pogleda, fino podešavanje izlaza i procjenu veličine zaslona za stolne uređaje.

Kako bi razumjeli važnost svake komponente, autori su ih uklonili pojedinačno i ocijenili izvedbu na 226 stolnih i 225 mobilnih videozapisa izvučenih iz dva skupa podataka. Rezultati, mjereno prema G-srednja vrijednost i F1 rezultati, prikazani su u nastavku:

Rezultati koji pokazuju izvedbu modela punog pogleda, uz verzije s uklonjenim pojedinačnim koracima obrade.

Rezultati koji pokazuju izvedbu modela punog pogleda, uz verzije s uklonjenim pojedinačnim koracima obrade.

U svakom slučaju, izvedba je pala kada je korak izostavljen. Normalizacija se pokazala posebno vrijednom na stolnim računalima, gdje položaj kamere varira više nego na mobilnim uređajima.

Studija je također procijenila kako vizualne značajke predviđaju orijentaciju mobilne kamere: položaj lica, poza glave i pogled u oči ocijenjeni su s 0.75, 0.74 i 0.60, dok je njihova kombinacija dosegla 0.91, naglašavajući – navode autori – prednost integriranja višestrukih znakova.

The govorenje model, treniran na vertikalnoj udaljenosti usana, postigao je a ROC-AUC od 0.97 na ručno označenom testnom skupu i 0.96 na većem automatski označenom skupu podataka, što ukazuje na dosljednu izvedbu u oba.

The zijevaiući Model je dosegao ROC-AUC od 96.6 posto koristeći samo omjer usta, koji se poboljšao na 97.5 posto u kombinaciji s akcijska jedinica predviđanja iz AFFDEX 2.0.

Model zaslona bez nadzora klasificirao je trenutke kao nepažljiv kada ni AFFDEX 2.0 ni SmartEye nisu uspjeli otkriti lice dulje od jedne sekunde. Kako bi procijenili valjanost ovoga, autori su ručno označili sve takve događaje bez lica u prava distrakcija skup podataka, identificirajući temeljni uzrok svake aktivacije. Dvosmisleni slučajevi (poput začepljenja kamere ili izobličenja videa) isključeni su iz analize.

Kao što je prikazano u tablici rezultata u nastavku, samo 27 posto aktivacija 'bez lica' bilo je posljedica fizičkog napuštanja zaslona od strane korisnika.

Razni dobiveni razlozi zašto lice nije pronađeno u određenim slučajevima.

Razni dobiveni razlozi zašto lice nije pronađeno, u određenim slučajevima.

U radu se navodi:

„Unatoč tome što su ekrani bez nadzora činili samo 27% slučajeva koji su aktivirali signal bez lica, on se aktivirao iz drugih razloga koji ukazuju na nepažnju, poput gledanja sudionika izvan ekrana pod ekstremnim kutom, pretjeranog kretanja ili značajnog zaklanjanja lica predmetom/rukom.“

U posljednjem od kvantitativnih testova, autori su procijenili koliko je progresivno dodavanje različitih signala distrakcije – pogleda izvan ekrana (preko pogleda i poze glave), pospanosti, govora i zaslona bez nadzora – utjecalo na ukupnu izvedbu njihovog modela pažnje.

Testiranje je provedeno na dva skupa podataka: prava distrakcija skup podataka i testni podskup piljiti skup podataka. G-srednja vrijednost i F1 rezultati korišteni su za mjerenje izvedbe (iako su pospanost i govor isključeni iz analize skupa podataka o pogledu, zbog njihove ograničene važnosti u ovom kontekstu).

Kao što je prikazano u nastavku, otkrivanje pozornosti dosljedno se poboljšavalo kako je dodano više vrsta distrakcije, uz pogled izvan ekrana, najčešći distraktor, koji pruža najjaču temeljnu liniju.

Učinak dodavanja različitih signala ometanja arhitekturi.

Učinak dodavanja različitih signala ometanja arhitekturi.

Od ovih rezultata, u radu se navodi:

'Iz rezultata možemo prvo zaključiti da integracija svih signala distrakcije pridonosi poboljšanom otkrivanju pažnje.

'Drugo, poboljšanje detekcije pozornosti dosljedno je na stolnim i mobilnim uređajima. Treće, mobilne sesije u stvarnom skupu podataka pokazuju značajne pokrete glave kada se gleda u stranu, što se lako otkriva, što dovodi do bolje izvedbe mobilnih uređaja u usporedbi sa stolnim računalima. Četvrto, dodavanje signala pospanosti ima relativno malo poboljšanje u usporedbi s drugim signalima, jer se to obično rijetko događa.

'Konačno, signal zaslona bez nadzora ima relativno veće poboljšanje na mobilnim uređajima u usporedbi sa stolnim računalima, jer se mobilni uređaji lako mogu ostaviti bez nadzora.'

Autori su također usporedili svoj model s AFFDEX 1.0, prijašnjim sustavom koji se koristio u testiranju oglasa – čak je i detekcija pogleda temeljena na glavi trenutnog modela nadmašila AFFDEX 1.0 na obje vrste uređaja:

'Ovo poboljšanje rezultat je uključivanja pokreta glave u smjeru skretanja i nagiba, kao i normalizacije položaja glave kako bi se uzele u obzir manje promjene. Izraženi pokreti glave u stvarnom mobilnom skupu podataka uzrokovali su da naš model glave radi slično kao AFFDEX 1.0.'

Autori završavaju rad s (možda prilično površnim) kvalitativnim testom, prikazanim u nastavku.

Uzorci izlaza iz modela pažnje na stolnim i mobilnim uređajima, pri čemu svaki red predstavlja primjere istinitih i lažnih pozitivnih rezultata za različite vrste distrakcije.

Uzorci izlaza iz modela pažnje na stolnim i mobilnim uređajima, pri čemu svaki red predstavlja primjere istinitih i lažnih pozitivnih rezultata za različite vrste distrakcije.

Autori navode:

'Rezultati pokazuju da naš model učinkovito detektira različite distraktore u nekontroliranim okruženjima. Međutim, povremeno može proizvesti lažno pozitivne rezultate u određenim rubnim slučajevima, kao što je jako naginjanje glave uz zadržavanje pogleda na zaslonu, neka okluzija usta, pretjerano zamućene oči ili jako zatamnjene slike lica. '

Zaključak

Dok rezultati predstavljaju izmjeren, ali značajan napredak u odnosu na prethodni rad, dublja vrijednost studije leži u uvidu koji nudi u upornu težnju za pristupom unutarnjem stanju gledatelja. Iako su podaci prikupljeni uz pristanak, metodologija upućuje na buduće okvire koji bi se mogli proširiti izvan strukturiranih postavki istraživanja tržišta.

Ovaj prilično paranoičan zaključak samo je potkrijepljen zatvorenom, ograničenom i ljubomorno zaštićenom prirodom ovog pravca istraživanja.

 

* Moja pretvorba citata autora u tekstu u hiperveze.

Prvi put objavljeno u srijedu, 9. travnja 2025