никулец Зошто вештачката интелигенција не дава подобри препораки за производи - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Зошто вештачката интелигенција не дава подобри препораки за производи

mm
Ажурирани on

Ако сте заинтересирани за нејасни работи, постојат две причини зошто вашите пребарувања за предмети и производи веројатно ќе бидат помалку поврзани со вашите интереси отколку оние на вашите „мејнстрим“ врсници; или сте „најдобар случај“ за монетизација чии интереси ќе се задоволат само ако сте и во горните категории на економска куповна моќ (на пример, производи и услуги поврзани со „управување со богатството“); или алгоритмите за пребарување што ги користите се користат заедничко филтрирање (CF), што ги фаворизира интересите на мнозинството.

Бидејќи заедничкото филтрирање е поевтино и повеќе воспоставено од другите потенцијално поспособни алгоритми и рамки, можно е да се применат и двата случаи.

Резултатите од пребарувањето базирани на CF ќе им дадат приоритет на ставките за кои се смета дека се популарни меѓу „луѓето како вас“, бидејќи рамката на домаќинот најдобро може да разбере каков потрошувач сте.

Ако сте претпазливи да давате информации за профилирање податоци на системот домаќин - на пример, не сте склони да ги притискате копчињата „Ми се допаѓа“ во Netflix и другите услуги за видео содржини - веројатно ќе бидете класифицирани сосема генерички во вашите најрани интеракции со систем, а препораките што ќе ги добиете ќе ги одразуваат најпопуларните трендови.

На платформа за стриминг, тоа би можело да значи дека се препорачуваат какви било емисии и филмови кои моментално се „жешки“, како што се реалити ТВ и документарци за форензички убиства, без оглед на вашиот интерес за нив. Слично на тоа, за платформите за препораки за книги, кои ќе имаат тенденција да нудат актуелни и неодамнешни бестселери, очигледно произволно.

Теоретски, дури и корисниците со внимателност на податоци треба на крајот да добијат подобри резултати од таквите системи врз основа на начинот на кој ги користат и работите што ги бараат, бидејќи повеќето рамки за пребарување им даваат на корисниците ограничена можност да ја уредуваат својата историја на користење.

Секоја боја што ја сакате, се додека е црна

Сепак, според една нова студија од Австрија, надмоќта на колаборативното филтрирање над филтрирање базирано на содржина (која се обидува да ги дефинира односите помеѓу производите наместо само да ја земе предвид вкупната популарност) и други алтернативни пристапи, ги насочува системите за пребарување кон долгорочни пристрасност на популарноста, каде што очигледно популарните резултати се туркаат кон крајните корисници кои веројатно нема да бидат воодушевени од нив.

Весникот открива дека корисниците кои се незаинтересирани за популарните ставки добиваат „значително полоши“ препораки од корисниците со среден или висок интерес за популарност и (можеби тавтолошки) дека популарните ставки се препорачуваат почесто од непопуларните ставки. Истражувачите, исто така, заклучуваат дека корисниците со низок интерес за популарни ставки имаат тенденција да имаат поголеми кориснички профили кои потенцијално би можеле да ги подобрат системите за препораки - само ако системите би можеле да ја ослободат нивната зависност од метриката на „стадото“.

Споредувањето на популарноста со сложеноста на корисничките профили покажува дека „маргиналните“ корисници кои се незаинтересирани за мејнстрим содржина, всушност имаат повеќе потенцијални содржини за системите за препораки кои треба да ги искористат; но бидејќи таквите корисници не се во согласност со трендовите, се чини дека е изгубена можност. Извор: https://arxiv.org/pdf/2203.00376.pdf

Споредувањето на популарноста со сложеноста на корисничките профили покажува дека „маргиналните“ корисници кои се незаинтересирани за мејнстрим содржина, всушност имаат повеќе потенцијални содржини за системите за препораки кои треба да ги искористат; но бидејќи таквите корисници не се во согласност со трендовите, се чини дека е изгубена можност. Извор: https://arxiv.org/pdf/2203.00376.pdf

на хартија е насловен Пристрасност на популарноста во системи за мултимедијални препораки базирани на заедничко филтрирање, и доаѓа од истражувачите во сега-Center GmbH во Грац и Универзитетот за технологија во Грац.

Покриени домени

Надоврзувајќи се на претходните дела кои проучувале поединечни сектори (како што се препораките за книги), новиот труд испитува четири домени: дигитални книги (преку базата на податоци BookCrossing); филмови (преку MovieLens); музика (преку Last.fm); и аниме (преку MyAnimeList).

Студијата примени четири популарни мултимедијални системи за препораки (MMRS) колаборативни алгоритми за филтрирање наспроти збирките на податоци се подели во три групи корисници, според нивната склоност да бидат приемчиви за „популарни“ резултати: LowPop, MedPop, и Хајпоп. Групите корисници беа филтрирани на 1000 групи со еднаква големина, врз основа на најмалку, просечни и најверојатно да ги фаворизираат „популарните“ резултати.

Коментирајќи ги резултатите, авторите наведуваат:

„[Ние] откриваме дека веројатноста за препорачана мултимедијална ставка е во силна корелација со популарноста на овие ставки [и] дека корисниците со помала склоност кон популарност (LowPop) добиваат статистички значително полоши мултимедијални препораки од корисниците со средни (MedPop) и високи (HighPop) склоност кон популарни артикли…

„Нашите резултати покажуваат дека иако корисниците со мал интерес за популарни ставки имаат тенденција да имаат најголеми кориснички профили, тие добиваат најниска прецизност на препораките. Оттука, потребни се идни истражувања за да се ублажи пристрасноста на популарноста во MMRS, и на ниво на ставка и на корисник.'

Меѓу евалуираните алгоритми беа два К-Најблиски соседи (КНН) варијанти, КорисникKNN и UserKNNAvg. Првиот од нив не генерира просечна оцена за целниот корисник и ставка. А не-негативни факторизација на матрицата беше тестирана и варијанта (NMF), заедно со алгоритам CoClustering.

Протоколот за евалуација ја сметаше задачата за препорака како предизвик за предвидување, измерен од истражувачите во однос на средната апсолутна грешка (MAE), во однос на петкратниот протокол за вкрстена валидација што го надминува вообичаениот дел од 80/20 помеѓу обучените и тестираните податоци.

Резултатите укажуваат на речиси гаранција за пристрасност на популарноста при заедничко филтрирање. Прашањето, веројатно, е дали ова се смета за проблем од компаниите од повеќе милијарди долари кои моментално го инкорпорираат CF во нивните алгоритми за пребарување.

Во сите четири збирки на податоци проучувани преку четири популарни препораки за заедничко филтрирање, секој резултат покажува дека популарните медиумски ставки се поверојатно да се препорачаат отколку непопуларните понуди.

Во сите четири збирки на податоци проучувани преку четири популарни препораки за заедничко филтрирање, секој резултат покажува дека популарните медиумски ставки се поверојатно да се препорачаат отколку непопуларните понуди.

„Лесниот“ излез

Иако заедничкото филтрирање се повеќе се користи како само една штица на пошироката стратегија за алгоритам за пребарување, тоа има силен удел во секторот за пребарување, а неговата логика и потенцијална профитабилност се атрактивно лесни за разбирање.

Самиот по себе, CF суштински ја отстранува задачата за проценка на вредноста на содржината до крајните корисници и го користи нивното прифаќање на содржината како индекс на нејзината вредност и потенцијална привлечност за другите клиенти. По аналогија, во суштина тоа е мапа на „зуи за ладилници за вода“.

Филтрирањето засновано на содржина (CBF) е потешко, но потенцијално може да обезбеди порелевантни резултати. Во секторот за компјутерска визија, во моментов се троши сè поголем број на истражувања за категоризирање на видео содржини и обидувајќи се да изведе домени, карактеристики и концепти на високо ниво преку анализа на аудио и видео во филм и ТВ излез.

Еден од многуте истражувачки проекти во последните пет години кој се обидува да изведе семантички карактеристики од содржината на филмовите, со цел да генерира поинтелигентни препораки „соседни“. Извор: https://arxiv.org/pdf/1701.00199.pdf

Еден од многуте истражувачки проекти во последните пет години кој се обидува да изведе семантички карактеристики од содржината на филмовите, со цел да генерира поинтелигентни препораки „соседни“. Извор: https://arxiv.org/pdf/1701.00199.pdf

Сепак, ова е релативно зародиш, и поврзан со сегашната, поопшта борба за квантифицирање, изолирање и искористување на концепти и карактеристики на високо ниво во знаењето на доменот.

Кој користи заедничко филтрирање?

Во времето на пишувањето, на Нетфликс често критикуван моторот за препораки останува фиксиран на различни заеднички пристапи за филтрирање, применувајќи различни дополнителни технологии во тековните обиди да се генерираат повеќе препораки релевантни за корисникот.

Пребарувачот на Амазон еволуирале од неговото рано усвојување на заедничко филтрирање засновано на корисници до методот на заедничко филтрирање ставка-артика, што става поголем акцент на историјата на купување на клиентот. Секако, ова може да доведе до различни видови неточност, како на пр филтер меурчиња, или пренагласување на ретки податоци. Во вториот случај, ако редок клиент на Амазон направи „невообичаено“ купување, како што е збир на оперети за пријател љубител на операта, можеби нема да има соодветни алтернативни набавки што ги одразуваат сопствените преференции на клиентот за да се спречи ова купување да стане влијание врз сопствените препораки.

Колаборативното филтрирање исто така широко се користи од Facebook, во согласност со други пристапи, а исто така и од Скопје, YouTube и Twitter.

 

Прво објавено на 2 март 2022 година.