Искусственный интеллект

Использование отзывов для создания системы рекомендаций, которая работает

Published February 1, 2022

Updated April 5, 2026

Martin Anderson

Если вы когда-либо покупали продукт в Интернете и были поражены бессмысленностью и неуместностью “связанных товаров”, которые преследуют процесс покупки и после продажи, вы уже понимаете, что популярные и массовые системы рекомендаций склонны не оправдывать ожиданий в плане понимания отношений между потенциальными покупками.

Если вы покупаете маловероятный и редкий товар, такой как духовка, рекомендации других духовок, скорее всего, будут излишними, хотя худшие системы рекомендаций не признают это. В 2000-х годах, например, система рекомендаций TiVO создала ранний скандал в этой области, переназначив воспринимаемую сексуальность пользователя, который впоследствии попытался “ремаскулинизировать” свой профиль пользователя, выбирая военные фильмы – это было грубым подходом к алгоритмической ревизии.

Хуже того, вам не нужно фактически покупать что-либо на (например) Amazon или начинать смотреть фильм, чье описание вы просматриваете на любой крупной потоковой платформе, чтобы информационно-оголодавшие алгоритмы рекомендаций начали идти по неправильному пути; поиски, задержки и клики на страницы “подробностей” достаточно, и эта скудная (и, вероятно, неверная) информация, скорее всего, будет сохранена в будущих сеансах просмотра на платформе.

Попытка заставить систему рекомендаций забыть

Иногда возможно вмешаться: Netflix предоставляет систему “вверх/вниз”, которая, в теории, должна помочь его алгоритмам машинного обучения удалить определенные встроенные понятия и слова из вашего профиля рекомендаций (хотя его эффективность была поставлена под сомнение, и остается намного проще эволюционировать персонализированный алгоритм рекомендаций с нуля чем удалять нежелательные онтологии), в то время как Amazon позволяет вам удалить названия из вашей истории покупок, что должно понижать любые нежелательные области, которые проникли в ваши рекомендации.

Hulu имеет podobную функцию, в то время как HBO Max частично отступил от алгоритмических систем рекомендаций, в свете их текущих недостатков.

Ни один из этих строго потребительских опытов даже не затрагивает широко распространенную и растущую критику “пассивных” рекламных платформ систем рекомендаций (где заметные изменения из-за общественного гнева), или горячую тему рекомендаций ИИ в социальных сетях, где сайты, такие как YouTube, Twitter и Facebook продолжают подвергаться критике за нерелевантные или даже вредные рекомендации.

Машина, кажется, не знает, чего мы хотим, если только мы не хотим смежного предмета, который появился в нашем поиске – даже если этот предмет по сути является дубликатом или альтернативой основному предмету, который мы могли только что купить, а не потенциальным дополнительным или вспомогательным покупкой.

Точные рекомендации с помощью данных отзывов

Новое исследовательское сотрудничество из Китая и Австралии предлагает новый метод решения таких неуместных рекомендаций, используя внешние отзывы пользователей для лучшего понимания реальных отношений между предметами в сеансе покупки. В тестах архитектура превзошла все современные методы, предлагая надежду на системы рекомендаций, которые имеют лучшую внутреннюю карту зависимостей предметов:

RI-GNN превосходит основных конкурентов в плане точности отношений между предметами, показывая лучшие результаты на сеансах с более чем пятью предметами. Система была протестирована против наборов данных Pet Supplies и Movies and TV из Amazon Review Data (2018). Source: https://arxiv.org/pdf/2201.12532.pdf

Кроме того, проект решает заметную задачу создания рекомендаций даже в анонимных сеансах, где система рекомендаций не имеет доступа к данным, предоставленным пользователем, таким как история покупок или собственные онлайн-отзывы пользователя о предыдущих покупках.

Новая статья называется Переосмысление смежной зависимости в сеансах рекомендаций, и исходит от исследователей из Qilu University of Technology и Beijing Institute of Technology в Китае, RMIT University в Мельбурне и Australian Artificial Intelligence Institute в University of Technology Sydney.

Что дальше?

Основная задача сеансных рекомендаций (SBR) – определить “следующий” предмет от текущего предмета, основанный на его рассчитанном отношении к текущему предмету. В практическом смысле это может проявиться как список “Связанных предметов” на странице предмета для клетки для птицы на сайте электронной коммерции.

Если вы покупаете клетку для птицы, что еще вам, скорее всего, понадобится? Ну, по крайней мере, вам понадобится птица, чтобы положить ее туда – это истинная зависимость. Однако клетка для птицы представлена в онтологии товары для домашних животных, где птицы не продаются. ПERVERSно, корм для кошек находится в той же онтологии, хотя добавление миски для кормления кошки в качестве связанной рекомендации для продукта клетки для птицы является ложной зависимостью – ошибочной и заблуждающей ассоциацией.

Из статьи: истинные и ложные отношения между несколькими предметами, визуализированные справа как граф межпредметных отношений.

Как это часто бывает в архитектурах машинного обучения, это задача убедить систему рекомендаций, что “удаленный” объект (птица не представлена вообще в товарах для домашних животных) может иметь внутреннее и важное отношение к предмету, тогда как предметы, которые находятся в одной категории и очень близки по функции и центральной концепции (такие как миска для кормления кошки), могут быть ортогональными или直接 противоположными покупке, рассматриваемой.

Единственный способ создать эти сопоставления между “несмежными” объектами – это привлечь толпу к решению проблемы, поскольку отношения в вопросе являются аспектом человеческого опыта, не могут быть угаданы программно и, вероятно, находятся за пределами доступного объема обычных подходов к маркировке наборов данных, таких как Amazon Mechanical Turk.

Следовательно, исследователи использовали механизмы обработки естественного языка (NLP), чтобы извлечь значимые слова из отзывов о продукте, и использовали частоты из этих анализов для создания вложений, способных “соответствовать” казалось бы удаленным предметам.

Архитектура Review-refined Inter-item Graph Neural Network (RI-GNN).

Архитектура и данные

Как отмечается в новой статье, предыдущие работы подобного рода использовали журнал отзывов пользователя для предоставления базовых сопоставлений. DeepCONN и RNS оба использовали этот подход. Однако это игнорирует тот факт, что пользователь может не написать никаких отзывов или отзывов, имеющих отношение к конкретному предмету, который находится “вне диапазона” его обычных привычек покупок. Кроме того, это своего рода “белый ящик” подход, поскольку он предполагает, что пользователь уже достаточно взаимодействовал с магазином, чтобы создать учетную запись и войти в систему.

Расширенная графовая нейронная сеть (GNN), предложенная исследователями, использует более оракульный подход, получая истинные зависимости a priori, так что, предположительно, анонимный и не вошедший в систему пользователь может испытать более релевантные рекомендации с минимальным вводом, необходимым.

Система, дополненная отзывами, называется Review-refined Inter-item Graph Neural Network (RI-GNN). Исследователи протестировали ее против двух наборов данных из Amazon, Pet Supplies и Movies and TV. Хотя это решает проблему доступности отзывов довольно аккуратно, реализация в дикой природе потребует нахождения и соскабливания подходящей базы данных отзывов. Такой источник набора данных мог бы, в теории, быть чем угодно, от постов в социальной сети до ответов на Quora.

Высокоуровневые сопоставления отношений этого типа также были бы ценными для ряда приложений машинного обучения, выходящих за рамки систем рекомендаций. Многие текущие проекты ограничены из-за отсутствия меж- и внутридоменных сопоставлений из-за ограниченных средств и объема, тогда как коммерческая инициатива真正 знающей и краудсорсинговой системы рекомендаций электронной коммерции могла бы потенциально заполнить этот пробел.

Метрики и тестирование

Авторы протестировали RI-GNN против двух версий каждого набора данных, каждый из которых состоит из истории покупок пользователя и общих отзывов о продукте. Предметы, появляющиеся менее пяти раз, были удалены, и история пользователя разделена на единицы недели. Первая версия набора данных включала все сеансы с более чем одним предметом, и вторая – все сеансы с более чем пятью предметами.

Проект использовал P@K (Точность) и MRR@K (Средний обратный ранг) для своих метрик оценки. Соперничающие архитектуры, протестированные, были: S-KNN; GRU4Rec; S-POP; STAMP; BERT4Rec; DHCN; GCE-GNN; SR-GNN; и NARM.

Фреймворк был обучен в партиях по 100 на Adam со скоростью обучения 0,001, с количеством тем, установленным на 24 и 20, соответственно, для Pet Supplies и Movies and TV.

Опубликовано впервые 1 февраля 2022 года.