Andersonův úhel

Proč umělá inteligence neposkytuje lepší produktové doporučení

Publikováno 2. března 2022

Aktualizováno 24. května 2026

Martin Anderson

Pokud máte zájem o méně známé věci, existují dva důvody, proč vaše vyhledávání položek a produktů bude pravděpodobně méně související s vašimi zájmy než u vašich “hlavního proudu” vrstevníků; buď jste “hranční případ” monetizace, jehož zájmy budou uspokojeny pouze tehdy, pokud jste také v horních kategoriích ekonomické kupní síly (například produkty a služby související s “správou bohatství”); nebo vyhledávací algoritmy, které používáte, využívají kolektivní filtrování (CF), které upřednostňuje zájmy většiny.

Pokud je kolektivní filtrování levnější a zavedenější než jiné potenciálně schopnější algoritmy a rámce, je možné, že obě tyto případy platí.

Výsledky vyhledávání založené na CF budou upřednostňovat položky, které jsou považovány za populární mezi “lidmi jako vy”, podle toho, jak dobře hostitelský rámec rozumí tomu, jaký jste spotřebitel.

Pokud jste opatrní při poskytování informací o profilování dat hostitelskému systému – například pokud nejste nakloněni stisknout tlačítko “Líbí se mi” ve službách Netflix a dalších videoobsahových službách – budete pravděpodobně klasifikováni quite obecně ve svých prvních interakcích se systémem, a doporučení, která dostanete, budou odrážet nejpopulárnější trendy.

Na streamovací platformě to může znamenat, že vám budou doporučeny jakékoliv pořady a filmy, které jsou aktuálně “horké”, jako je reality TV a forenzní vražedné dokumenty, bez ohledu na váš zájem o tyto. Stejně tak pro platformy pro doporučení knih, které budou mít tendenci nabízet aktuální a nedávné bestsellery, zdánlivě náhodně.

Jakékoli barva, kterou si přejete, pokud je to černá

Nicméně, podle nové studie z Rakouska, dominance kolektivního filtrování nad obsahovým filtrováním (které se snaží definovat vztahy mezi produkty místo toho, aby bralo v úvahu pouze agregovanou popularitu), a další alternativní přístupy, inklinuje vyhledávací systémy k dlouhodobému popularity bias, kde zjevně populární výsledky jsou předávány koncovým uživatelům, kteří s nimi pravděpodobně nebudou nadšeni.

Studie zjistila, že uživatelé, kteří nejsou intéressovaní o populární položky, dostávají “významně horší” doporučení než uživatelé se středním nebo vysokým zájmem o popularitu, a (možná tautologicky) že populární položky jsou doporučovány častěji než nepopulární položky. Výzkumníci také dospěli k závěru, že uživatelé s nízkým zájmem o populární položky tendují mít větší uživatelské profily, které by mohly potenciálně zlepšit systémy doporučení – pokud by systémy mohly překonat svou závislost na “stádu” metrikách.

Porovnání popularity s komplexitou uživatelských profilů ukazuje, že ‘okrajoví’ uživatelé, kteří nejsou intéressovaní o mainstreamový obsah, vlastně mají více potenciálu pro systémy doporučení; ale protože tito uživatelé nekonformují trendům, zdá se to být ztracená příležitost. Zdroj: https://arxiv.org/pdf/2203.00376.pdf

Studie se nazývá Popularity Bias in Collaborative Filtering-Based Multimedia Recommender Systems a pochází od výzkumníků z now-Center GmbH v Grazu a Technické univerzity v Grazu.

Domény pokryté

Studie se zabývá čtyřmi doménami: digitálními knihami (prostřednictvím souboru BookCrossing); filmy (prostřednictvím MovieLens); hudbou (prostřednictvím Last.fm); a anime (prostřednictvím MyAnimeList).

Studie aplikovala čtyři populární algoritmy kolektivního filtrování proti datovým sadám rozděleným do tří uživatelských skupin, podle jejich naklonění být receptivní k “populárním” výsledkům: LowPop, MedPop a HighPop. Uživatelské skupiny byly filtrovány na 1000 skupin stejné velikosti, na základě nejméně, průměru a nejvíce naklonění k “populárním” výsledkům.

Při komentování výsledků autoři uvádějí:

‘[My] zjistili, že pravděpodobnost, že bude multimediální položka doporučena, silně koreluje s popularitou položky [a] že uživatelé, kteří nejsou intéressovaní o populární položky, dostávají statisticky významně horší multimediální doporučení než uživatelé se středním a vysokým zájmem o populární položky…

‘Naše výsledky ukazují, že uživatelé s nízkým zájmem o populární položky tendují mít větší uživatelské profily, ale dostávají nejnižší přesnost doporučení. Proto je zapotřebí další výzkum, aby se snížila popularity bias v MMRS, både na úrovni položky a uživatele.’

Mezi vyhodnocenými algoritmy byly dvě varianty K-Nearest Neighbors (KNN), UserKNN a UserKNNAvg. První z nich nevytváří průměrné hodnocení pro cílového uživatele a položku. Non-negativní matice faktorizace varianta (NMF) byla také testována, spolu s algoritmem CoClustering.

Vyhodnocovací protokol považoval úloha doporučení za predikční výzvu, měřenou výzkumníky pomocí průměrné absolutní chyby (MAE), proti pětifold křížové validaci, která překračuje obvyklé rozdělení 80/20 mezi trénovacími a testovacími daty.

Výsledky ukazují téměř jistotu popularity biasu při kolektivním filtrování. Otázka, pravděpodobně, je, zda je to považováno za problém multi-miliardovými společnostmi, které aktuálně začleňují CF do svých vyhledávacích algoritmů.

Across all four datasets studied over four popular Collaborative Filtering recommendations, each result indicates that popular media items are more likely to be recommended than unpopular offerings.

Jednoduchá cesta ven

Ačkoli kolektivní filtrování je stále více používáno jako pouze jeden prvek širší vyhledávací algoritmové strategie, má silný podíl na vyhledávacím sektoru, a jeho logika a potenciální ziskovost je atraktivně snadno pochopitelná.

Sám o sobě, CF vlastně přenáší úloha hodnocení obsahu na koncové uživatele, a používá jejich přijetí obsahu jako index jeho hodnoty a potenciální atraktivnosti pro ostatní zákazníky. Analogií, je to vlastně mapa “water cooler buzz”.

Obsahové filtrování (CBF) je obtížnější, ale mohlo by potenciálně poskytnout relevantnější výsledky. V sektoru počítačového vidění je aktuálně vynaloženo velké množství výzkumu na kategorizaci videoobsahu a pokusy o odvození domén, funkcí a vysokých konceptů prostřednictvím analýzy audio a video výstupu.

Jeden z mnoha výzkumných projektů za posledních pět let, který se snaží odvodit sémantické funkce z obsahu filmů, aby generoval inteligentnější ‘adjacent’ doporučení. Zdroj: https://arxiv.org/pdf/1701.00199.pdf

Nicméně, toto je relativně nová snaha, a vázaná na aktuální, obecnější boj za kvantifikaci, izolaci a využití vysokých konceptů a funkcí v doménovém poznání.

Kdo používá kolektivní filtrování?

V době psaní tohoto článku, doporučení Netflixu často kritizované zůstává fixované na různých přístupech kolektivního filtrování, aplikujících různé přidružené technologie v ongoing pokusech o generování více uživatelsky relevantních doporučení.

Amazonův vyhledávací engine evolvoval z jeho rané adopce uživatelského kolektivního filtrování na item-item kolektivní filtrování, které klade větší důraz na zákazníkovi nákupní historii. Přirozeně, to může vést k různým typům nepřesností, jako jsou filter bubliny, nebo přehnaný důraz na řídká data. V posledním případě, pokud méně častý zákazník Amazonu provede “neobvyklý” nákup, jako je sada operet pro operu-milovného přítele, nemusí být dostatečné alternativní nákupy, které odrážejí zákazníkovi vlastní preference, aby zastavily nákup z becoming vlivem na jejich vlastní doporučení.

Kolektivní filtrování je také široce používáno Facebookem, v kombinaci s jinými přístupy, a také LinkedInem, YouTube a Twitterem.

Poprvé publikováno 2. března 2022.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Proč umělá inteligence neposkytuje lepší produktové doporučení

Jakékoli barva, kterou si přejete, pokud je to černá

Domény pokryté

Jednoduchá cesta ven

Kdo používá kolektivní filtrování?

Objevte více