Kunstig intelligens
Hvorfor AI ikke giver bedre produktanbefalinger

Hvis du er interesseret i obskure ting, er der to grunde til, at dine søgninger efter varer og produkter sandsynligvis er mindre relateret til dine interesser end dem fra dine ‘mainstream’-ligemænd; enten er du en monetarisering ‘edge case’, hvis interesser kun vil blive tilgodeset, hvis du også er i de øvre kategorier af økonomisk købekraft (f.eks. produkter og tjenester relateret til ‘formueforvaltning’); eller de søgealgoritmer, du bruger, udnytter collaborative filtering (CF), som favoriserer interesserne hos flertallet.
Da collaborative filtering er billigere og mere etableret end andre potentielt mere kapable algoritmer og rammer, er det muligt, at begge disse tilfælde gælder.
CF-baserede søgeresultater vil prioritere elementer, der opfattes som populære blandt ‘personer som dig’, så godt som værtsrammen kan forstå, hvilken slags forbruger du er.
Hvis du er forsigtig med at give dataprofileringoplysninger til værtsystemet – f.eks. ikke er tilbøjelig til at trykke på ‘Lide’-knapperne i Netflix og andre videoindholdstjenester – er du sandsynligvis klassificeret meget generisk i dine tidligste interaktioner med systemet, og anbefalingerne du modtager, vil afspejle de mest populære trends.
På en streamingplatform kan det betyde, at du bliver anbefalet hvad som helst shows og film, der i øjeblikket er ‘hot’, såsom reality-tv og retsmedicinske morddokumentarer, uanset din interesse for disse. Ligeså for boganbefalingsplatforme, som tenderer til at tilbyde nuværende og seneste bestsellers, åbenbart tilfældigt.
I teorien burde selv data-forsigtige brugere til sidst få bedre resultater fra sådanne systemer baseret på, hvordan de bruger dem og de ting, de søger efter, da de fleste søgeframeworks giver brugerne begrænset mulighed for at redigere deres brugs historik.
Enhver farve du kan lide, så længe det er sort
Men ifølge en ny studie fra Østrig favoriserer collaborative filterings overlegenhet over indholdsbaseret filtering (som søger at definere relationer mellem produkter i stedet for blot at tage samlet popularitet i betragtning), og andre alternative tilgange, søger systemer mod langsigtede popularitetsforvrængning, hvor åbenbart populære resultater skydes mod slutbrugere, der er uvist at være begejstret for dem.
Papiret finder, at brugere, der ikke er interesseret i populære elementer, modtager ‘væsentligt dårligere’ anbefalinger end brugere med medium eller høj interesse for popularitet, og (muligvis tautologisk) at populære elementer anbefales hyppigere end upopulære elementer. Forskerne konkluderer også, at brugere med lav interesse for populære elementer tenderer til at have større brugerprofiler, der potentielt kan forbedre anbefalningssystemer – hvis blot systemerne kunne af med deres afhængighed af ‘hjordemålinger’.

Sammenligning af popularitet og kompleksitet af brugerprofiler viser, at ‘marginale’ brugere, der ikke er interesseret i mainstream-indhold, faktisk har mere potentiale for indhold, som anbefalningssystemer kan udnytte; men da sådanne brugere ikke konformerer sig til trends, synes det at være en tabt mulighed. Kilde: https://arxiv.org/pdf/2203.00376.pdf
Den papir er titlen Popularity Bias in Collaborative Filtering-Based Multimedia Recommender Systems, og kommer fra forskere ved nu-Center GmbH i Graz, og Graz Universitet for Teknologi.
Dækning af domæner
Bygning på tidligere værker, der studerede enkelte sektorer (såsom boganbefalinger), undersøger den nye papir fire domæner: digitale bøger (via BookCrossing-datasættet); film (via MovieLens); musik (via Last.fm); og animes (via MyAnimeList).
Studiet anvendte fire populære multimedieanbefalningssystemer (MMRS) collaborative filtering-algoritmer mod datasæt split i tre brugergrupper, efter deres inclination til at være modtagelige for ‘populære’ resultater: LowPop, MedPop, og HighPop. Brugergrupperne blev filtreret ned til 1000 lige store grupper, baseret på mindst, gennemsnit og mest sandsynlig til at favorisere ‘populære’ resultater.
I kommentar til resultaterne udtaler forfatterne:
‘[Vi] finder, at sandsynligheden for, at et multimedieelement bliver anbefalet, stærkt korrelerer med dette elements popularitet [og] at brugere med mindre inclination til popularitet (LowPop) modtager statistisk set væsentligt dårligere multimedieanbefalinger end brugere med medium (MedPop) og høj (HighPop) inclination til populære elementer…
‘Vore resultater demonstrerer, at selv om brugere med lidt interesse i populære elementer tenderer til at have de største brugerprofiler, modtager de lavest anbefalingsnøjagtighed. Derfor er fremtidig forskning nødvendig for at mildne popularitetsforvrængning i MMRS, både på element- og brugerniveau.’
Blandt de algoritmer, der blev evalueret, var to K-Nearest Neighbors (KNN)-varianter, UserKNN og UserKNNAvg. Den første af disse genererer ikke en gennemsnitsvurdering for målbrugeren og elementet. En ikke-negativ matrixfaktorisering-variant (NMF) blev også testet, sammen med en CoClustering-algoritme.
Evalueringsprotokollen overvejede anbefalingsopgaven som en forudsigelsesudfordring, målt af forskerne i form af gennemsnitlig absolut fejl (MAE), mod en fem-doblet valideringsprotokol, der overgår den sædvanlige 80/20-deling mellem trænet og testdata.
Resultaterne indikerer en næsten garanti for popularitetsforvrængning under collaborative filtering. Spørgsmålet, kan man argumentere for, er, om dette opfattes som et problem af de multi-milliarddollar-virksomheder, der i øjeblikket inkorporerer CF i deres søgealgoritmer.

Over alle fire datasæt, der blev studeret over fire populære Collaborative Filtering-anbefalinger, indikerer hver resultater, at populære medieelementer er mere sandsynlig at blive anbefalet end upopulære tilbud.
‘Den lette’ vej ud
Selv om collaborative filtering i stigende grad bruges som kun en del af en bredere søgealgoritme-strategi, har det en stærk interesse i søge-sektoren, og dets logik og potentielle profitabilitet er tiltalende let at forstå.
I sig selv uddelegerer CF essentieligt opgaven med at evaluere indholdsværdi til slutbrugere og bruger deres optagelse af indholdet som en indeks for dets værdi og potentiel tiltrækning for andre kunder. Ved analogi er det essentieligt et kort over ‘vandkøler-snak’.
Indholdsbaseret filtering (CBF) er mere svært, men kunne potentielt give mere relevante resultater. I computer vision-sektoren udgøres der i øjeblikket en stor mængde forskning på at kategorisere videoindhold og forsøge at udlede domæner, funktioner og højt niveau-koncepter gennem analyse af lyd og video i film- og tv-udsendelser.

Et af mange forskningsprojekter over de sidste fem år, der forsøger at udlede semantiske funktioner fra indholdet af film for at generere mere intelligente ’tilstødende’ anbefalinger. Kilde: https://arxiv.org/pdf/1701.00199.pdf
Men dette er en relativt ny tilgang, og er bundet op i den nuværende, mere generelle kamp for at kvantificere, isolere og udnytte højt niveau-koncepter og funktioner i domæne-kendskab.
Hvem bruger Collaborative Filtering?
På tidspunktet for skrivning er Netflix’s ofte-kritiserede anbefalingsmotor stadig fast besluttet på forskellige collaborative filtering-tilgange, anvendende en række tilstødende teknologier i fortsatte forsøg på at generere mere bruger-relevante anbefalinger.
Amazons søgemaskine udviklede sig fra dens tidlige overtagelse af bruger-baseret collaborative filtering til en vare-vare collaborative filtering-metode, der lægger større vægt på kundens købs historik. Naturligvis kan dette føre til forskellige typer af usikkerhed, såsom filterbobler, eller over-vægt på sparsomme data. I sidstnævnte tilfælde, hvis en sjælden Amazon-kunde foretager en ‘usædvanlig’ køb, såsom et sæt operetter til en opera-elskende ven, kan der ikke være tilstrækkelige alternative køb, der afspejler kundens egne præferencer til at stoppe dette køb fra at blive en indflydelse på deres egne anbefalinger.
Collaborative filtering bruges også omfattende af Facebook, i koncert med andre tilgange, og også af LinkedIn, YouTube og Twitter.
Først udgivet 2. marts 2022.












