заглушки Почему ИИ не дает лучших рекомендаций по продуктам - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Почему ИИ не дает лучших рекомендаций по продуктам

mm
обновленный on

Если вас интересуют малоизвестные вещи, есть две причины, по которым ваши поиски предметов и продуктов, вероятно, будут менее связаны с вашими интересами, чем поиски ваших «мейнстримных» сверстников; либо вы являетесь «пограничным случаем» монетизации, чьи интересы будут удовлетворены только в том случае, если вы также находитесь в высших категориях экономической покупательной способности (например, продукты и услуги, связанные с «управление капиталом»); или алгоритмы поиска, которые вы используете, используют совместная фильтрация (CF), которая выступает за интересы большинства.

Поскольку совместная фильтрация дешевле и более устоялась, чем другие потенциально более эффективные алгоритмы и платформы, вполне возможно, что применимы оба этих случая.

Результаты поиска на основе CF будут отдавать приоритет элементам, которые считаются популярными среди «таких людей, как вы», поскольку хост-платформа лучше всего может понять, какой вы потребитель.

Если вы опасаетесь предоставлять хост-системе информацию о профилировании данных — например, не склонны нажимать кнопки «Мне нравится» в Netflix и других службах видеоконтента — вас, скорее всего, будут классифицировать довольно обобщенно при самых первых взаимодействиях с система, а рекомендации, которые вы получите, будут отражать самые популярные тренды.

На потоковой платформе это может означать, что вам рекомендуют любые шоу и фильмы, которые в настоящее время «горячие», такие как реалити-шоу и документальные фильмы о криминалистических убийствах, независимо от вашего интереса к ним. То же самое и с платформами рекомендаций книг, которые будут склонны предлагать текущие и недавние бестселлеры, по-видимому, произвольно.

Теоретически даже пользователи, внимательно относящиеся к данным, должны в конечном итоге получать лучшие результаты от таких систем в зависимости от того, как они их используют и что ищут, поскольку большинство поисковых платформ предоставляют пользователям ограниченные возможности редактирования своей истории использования.

Любой цвет, который вам нравится, лишь бы он был черным

Однако, согласно новому исследованию из Австрии, господство совместной фильтрации над контентная фильтрация (который стремится определить отношения между продуктами, а не просто учитывать совокупную популярность) и другие альтернативные подходы склоняют поисковые системы к долгосрочному поиску. склонность к популярности, где очевидно популярные результаты подталкиваются к конечным пользователям, которые вряд ли будут в восторге от них.

В документе показано, что пользователи, не заинтересованные в популярных товарах, получают «значительно худшие» рекомендации, чем пользователи со средним или высоким интересом к популярности, и (возможно, тавтологически) популярные товары рекомендуются чаще, чем непопулярные. Исследователи также пришли к выводу, что пользователи с низким интересом к популярным товарам, как правило, имеют более крупные пользовательские профили, которые потенциально могли бы улучшить рекомендательные системы — если бы только системы могли избавиться от их зависимости от «стадных» показателей.

Сравнение популярности со сложностью профилей пользователей показывает, что «маргинальные» пользователи, не заинтересованные в основном контенте, на самом деле имеют больше потенциального контента для рекомендательных систем; но поскольку такие пользователи не соответствуют тенденциям, это кажется упущенной возможностью. Источник: https://arxiv.org/pdf/2203.00376.pdf

Сравнение популярности со сложностью профилей пользователей показывает, что «маргинальные» пользователи, не заинтересованные в основном контенте, на самом деле имеют больше потенциального контента для рекомендательных систем; но поскольку такие пользователи не соответствуют тенденциям, это кажется упущенной возможностью. Источник: https://arxiv.org/pdf/2203.00376.pdf

Ассоциация бумаги называется Предвзятость популярности в мультимедийных рекомендательных системах на основе совместной фильтрации, и исходит от исследователей из Центра GmbH в Граце и Технологического университета Граца.

Покрытые домены

Опираясь на предыдущие работы, в которых изучались отдельные отрасли (например, книжные рекомендации), в новом документе рассматриваются четыре области: цифровые книги (через набор данных буккроссинга); фильмы (через ФильмОбъектив); музыка (через Last.fm); и аниме (через MyAnimeList).

В исследовании применялись алгоритмы совместной фильтрации четырех популярных мультимедийных рекомендательных систем (MMRS) для наборов данных. раскол на три группы пользователей в зависимости от их склонности быть восприимчивыми к «популярным» результатам: Лоу-Поп, МедПопи Хай-поп. Группы пользователей были отфильтрованы до 1000 групп одинакового размера на основе наименьшего, среднего и наиболее вероятного предпочтения «популярных» результатов.

Комментируя результаты, авторы заявляют:

«[Мы] обнаружили, что вероятность того, что мультимедийный элемент будет рекомендован, сильно коррелирует с популярностью этого элемента, [и] что пользователи с меньшей склонностью к популярности (LowPop) получают статистически значительно худшие мультимедийные рекомендации, чем пользователи со средней (MedPop) и высокой (HighPop) склонность к популярным вещам…

«Наши результаты показывают, что, хотя пользователи, мало интересующиеся популярными товарами, как правило, имеют самые большие профили пользователей, они получают самую низкую точность рекомендаций. Следовательно, необходимы дальнейшие исследования, чтобы смягчить предвзятость популярности в MMRS, как на уровне товара, так и на уровне пользователя».

Среди оцененных алгоритмов было два K-Ближайшие соседи (КНН) варианты, ПользовательKNN и UserKNNAvg. Первый из них не генерирует средний рейтинг для целевого пользователя и элемента. А неотрицательное матричная факторизация Вариант (NMF) также был протестирован вместе с алгоритмом CoClustering.

Протокол оценки рассматривал задачу рекомендации как задачу прогнозирования, измеряемую исследователями с точки зрения средней абсолютной ошибки (MAE) по сравнению с протоколом пятикратной перекрестной проверки, который превышает обычное разделение 80/20 между обученными и тестовыми данными.

Результаты указывают на почти гарантированную предвзятость популярности при совместной фильтрации. Вопрос, возможно, заключается в том, воспринимают ли это как проблему многомиллиардные компании, которые в настоящее время включают CF в свои поисковые алгоритмы.

Во всех четырех наборах данных, изученных по четырем популярным рекомендациям Collaborative Filtering, каждый результат указывает на то, что популярные элементы мультимедиа рекомендуются с большей вероятностью, чем непопулярные предложения.

Во всех четырех наборах данных, изученных по четырем популярным рекомендациям Collaborative Filtering, каждый результат указывает на то, что популярные элементы мультимедиа рекомендуются с большей вероятностью, чем непопулярные предложения.

«Легкий» выход

Хотя совместная фильтрация все чаще используется только как один из элементов более широкой стратегии поискового алгоритма, она имеет сильную долю в поисковом секторе, а ее логика и потенциальная прибыльность привлекательны и просты для понимания.

Сама по себе CF фактически перекладывает задачу оценки ценности контента на конечных пользователей и использует их восприятие контента как показатель его ценности и потенциальной привлекательности для других клиентов. По аналогии, это, по сути, карта «ажиотажа от кулеров для воды».

Фильтрация на основе контента (CBF) сложнее, но потенциально может дать более релевантные результаты. В секторе компьютерного зрения в настоящее время проводится все больше исследований по категоризации видеоконтента и пытаясь вывести домены, функции и концепции высокого уровня посредством анализа аудио и видео в фильмах и телепередачах.

Один из многих исследовательских проектов за последние пять лет, в которых делается попытка извлечь семантические характеристики из содержания фильмов, чтобы генерировать более разумные «смежные» рекомендации. Источник: https://arxiv.org/pdf/1701.00199.pdf

Один из многих исследовательских проектов за последние пять лет, в которых делается попытка извлечь семантические характеристики из содержания фильмов, чтобы генерировать более разумные «смежные» рекомендации. Источник: https://arxiv.org/pdf/1701.00199.pdf

Тем не менее, это относительно зарождающееся занятие, связанное с текущей, более общей борьбой за количественную оценку, изоляцию и использование концепций и функций высокого уровня в предметных знаниях.

Кто использует совместную фильтрацию?

На момент написания статьи Netflix часто критикуемый рекомендательный механизм по-прежнему ориентирован на различные подходы к совместной фильтрации, применяя различные дополнительные технологии в продолжающихся попытках генерировать более релевантные для пользователей рекомендации.

поисковая система Амазон эволюционировали от раннего внедрения совместной фильтрации на основе пользователей до метода совместной фильтрации по элементам, который уделяет больше внимания истории покупок клиента. Естественно, это может привести к разного рода неточностям, например фильтровать пузырьки, или чрезмерное внимание к разреженным данным. В последнем случае, если нечастый покупатель Amazon совершает «необычную» покупку, например набор оперетт для друга, любящего оперу, может не быть адекватных альтернативных покупок, отражающих собственные предпочтения покупателя, чтобы эта покупка не превратилась в ненужную. влияние на собственные рекомендации.

Совместная фильтрация также широко используется Facebook, в сочетании с другими подходамиа также LinkedIn, YouTube и Twitter.

 

Впервые опубликовано 2 марта 2022 г.