الذكاء الاصطناعي

استخدام المراجعات لإنشاء نظام تزكية يعمل

تم النشر ٥ فبراير، ٢٠٢٤

تحديث 9 كانون الأول، 2022

مارتن أندرسون

إذا سبق لك شراء منتج عبر الإنترنت وتعجبت من سخافة وعدم إمكانية تطبيق "العناصر ذات الصلة" التي تطارد عملية الشراء وما بعد البيع، فأنت تدرك بالفعل أن المنتجات الشائعة والسائدة أنظمة التوصية تميل إلى التقصير من حيث فهم العلاقات بين عمليات الشراء المحتملة.

إذا اشتريت عنصرًا غير محتمل وغير متكرر ، مثل الفرن ، فمن المحتمل أن تكون التوصيات الخاصة بالأفران الأخرى غير ضرورية ، على الرغم من أسوأ أنظمة التوصية تفشل في الاعتراف بذلكعلى سبيل المثال، في العقد الأول من القرن الحادي والعشرين، أثار نظام التوصية الخاص بـ TiVO جدلاً مبكرًا في هذا القطاع من خلال إعادة تحديد النشاط الجنسي المتصور مستخدم سعى بعد ذلك إلى "إعادة تذكير" ملفه الشخصي من خلال اختيار أفلام الحرب - وهو نهج بدائي لمراجعة الخوارزمية.

والأسوأ من ذلك أنك لا تحتاج إلى شراء أي شيء فعليًا من (على سبيل المثال) أمازون، أو البدء في مشاهدة فيلم تتصفح وصفه على أي منصة بث رئيسية، حتى تتمكن من الاستمتاع به. المعلومات المتعطشة إن خوارزميات التوصية تبدأ بمرح في السير على الطريق الخطأ؛ فالبحث والتوقف والنقر على صفحات "التفاصيل" كافية، ومن المرجح أن تستمر هذه المعلومات الضئيلة (وربما غير الصحيحة) عبر جلسات التصفح المستقبلية على المنصة.

محاولة جعل نظام التوصية ينسى

في بعض الأحيان يكون من الممكن التدخل: توفر Netflix نظام "إبهام لأعلى/أسفل" والذي من المفترض من الناحية النظرية أن يساعد خوارزميات التعلم الآلي الخاصة بها على إزالة بعض المفاهيم والكلمات المضمنة من ملف التوصيات الخاص بك (على الرغم من أن فعاليته قد انخفضت). تم استجوابه، ويبقى تطوير خوارزمية توصية شخصية من البداية أسهل بكثير من إزالة الأنطولوجيا غير المرغوب فيها) ، بينما تتيح لك أمازون إزالة العناوين من سجل العملاء الخاص بك ، والذي يجب أن يقلل من أي نطاقات غير مرحب بها تسللت إلى توصياتك.

لدى Hulu ملف ميزة مماثلة، في حين أن HBO Max لديها تراجع جزئيا من أنظمة التوصية الخوارزمية فقط ، في مواجهة أوجه القصور الحالية فيها.

لا يتطرق أي من هذه التجارب الموجهة على مستوى المستهلك بشكل صارم إلى الانتقادات الواسعة النطاق والمتزايدة لأنظمة التوصية بمنصات الإعلان "السلبية" (حيث التغيير الملحوظ قادم بسبب الغضب العام) ، أو الموضوع المثير لتوصيات الذكاء الاصطناعي لوسائل التواصل الاجتماعي ، حيث مواقع مثل يو توب YouTube, تويتر و فيسبوك الاستمرار في تحمل النقد للتوصيات غير ذات الصلة أو حتى الضارة.

يبدو أن الآلة لا تعرف ما نريده، إلا إذا أردنا ذلك. العنصر المجاور التي ظهرت في بحثنا - حتى لو كان هذا العنصر بشكل أساسي مكررًا أو بديلًا للعنصر الأساسي الذي ربما اشتريناه للتو ، بدلاً من شراء تكميلي أو تكميلي محتمل.

توصيات دقيقة مع بيانات المراجعة

يقدم تعاون بحثي جديد من الصين وأستراليا طريقة جديدة لمعالجة مثل هذه التوصيات غير المناسبة ، باستخدام مراجعات المستخدم الخارجية لاكتساب فهم أفضل للعلاقات الحقيقية بين العناصر في جلسة التسوق. في الاختبارات ، تفوقت البنية على جميع الأساليب الحديثة الحالية ، مما يمنح الأمل لأنظمة التوصية التي لديها خريطة داخلية أفضل لتبعيات العناصر:

يتفوق RI-GNN على المنافسين الرئيسيين من حيث دقة العلاقات بين العناصر ، ويحقق أفضل أداء في الجلسات التي تحتوي على أكثر من خمسة عناصر. تم اختبار النظام مقابل مستلزمات الحيوانات الأليفة والأفلام ومجموعات البيانات التلفزيونية من بيانات مراجعة أمازون (2018). المصدر: https://arxiv.org/pdf/2201.12532.pdf

وبالإضافة إلى ذلك، يتناول المشروع التحدي البارز المتمثل في إنشاء التوصيات حتى في الجلسات المجهولة، حيث لا يتمتع نظام التوصية بالقدرة على الوصول إلى التفاصيل التي يساهم بها المستخدم، مثل سجل الشراء، أو تقييمات المستخدم عبر الإنترنت للمشتريات السابقة.

الجديد ورقة يسمى إعادة التفكير في التبعية المجاورة في التوصيات المستندة إلى الجلسة، ويأتي من باحثين في جامعة تشيلو للتكنولوجيا ومعهد بكين للتكنولوجيا في الصين ، وجامعة RMIT في ملبورن ، والمعهد الأسترالي للذكاء الاصطناعي بجامعة التكنولوجيا في سيدني.

ما هي الخطوة التالية؟

تتمثل المهمة الأساسية للتوصيات القائمة على الجلسة (SBR) في تحديد المنتج "التالي" من المنتج الحالي، بناءً على علاقته المحسوبة به. عمليًا، يمكن أن يتجلى ذلك في قائمة "المنتجات ذات الصلة" في صفحة منتج لقفص طيور على موقع تجارة إلكترونية.

إذا كنت تشتري قفص طيور، فما الذي قد تحتاجه أيضًا؟ حسنًا، على الأقل، ستحتاج إلى طائر لتضعه فيه - هذا... التبعية الحقيقية. ومع ذلك ، فإن قفص الطيور وارد في الأنطولوجيا سلع الحيوانات الأليفةحيث لا تباع الطيور. على نحو منحرف ، القط الغذاء تقع في نفس علم الوجود ، على الرغم من أن إلحاق وعاء تغذية القطط كتوصية مرتبطة بمنتج قفص الطيور هو التبعية الزائفة - ارتباط خاطئ ومضلل.

من الورقة: العلاقات الصحيحة والخاطئة بين عدة عناصر ، متصورة على اليمين كرسم بياني بين العناصر.

كما هو الحال غالبًا في هياكل التعلم الآلي، فإن إقناع نظام التوصية بأن الكيان "البعيد" (طائر لا يظهر على الإطلاق في منتجات الحيوانات الأليفة) قد يكون لها علاقة جوهرية وهامة بعنصر ، في حين أن العناصر الموجودة في نفس الفئة ، وقريبة جدًا في الوظيفة والمفهوم المركزي (مثل وعاء تغذية القطط) ، قد تكون متعامدة أو تعارض بشكل مباشر عملية الشراء التي يتم النظر فيها.

الطريقة الوحيدة لإنشاء هذه التعيينات بين الكيانات "غير المتجاورة" هي حشد المشكلة، لأن العلاقات المعنية هي جانب من جوانب التجربة الإنسانية، ولا يمكن تخمينها برمجيًا، وربما تكون خارج النطاق المعقول للطرق التقليدية لتصنيف مجموعات البيانات، مثل الأمازون ميكانيكي ترك.

ولهذا السبب، استخدم الباحثون آليات معالجة اللغة الطبيعية (NLP) لاستخراج الكلمات البارزة من المراجعات الخاصة بالمنتج، واستخدموا الترددات من هذه التحليلات لإنشاء تضمينات قادرة على "مطابقة" العناصر البعيدة ظاهريًا.

بنية الشبكة العصبية للرسم البياني بين العناصر المنقحة للمراجعة (RI-GNN).

العمارة والبيانات

وكما تشير الورقة البحثية الجديدة، فإن الأعمال السابقة ذات الطبيعة المماثلة استغلت سجل المراجعة الخاص بالمستخدم الذي سجل الدخول لتوفير تعيينات أولية. ديب كون و RNS كلاهما استخدم هذا النهج. مع ذلك، يُغفل هذا حقيقة أن المستخدم قد لا يكون قد كتب أي تقييمات، أو أي تقييمات تتعلق بمنتج معين "خارج نطاق" عاداته الشرائية المعتادة. بالإضافة إلى ذلك، يُشبه هذا النهج "الصندوق الأبيض"، إذ يفترض أن المستخدم قد تفاعل بالفعل مع المتجر بما يكفي لإنشاء حساب وتسجيل الدخول.

الشبكة العصبية الموسعة للرسم البياني (GNN) التي اقترحها الباحثون تأخذ نهجًا يعتمد بشكل أكبر على أوراكل ، وتستمد التبعيات الحقيقية على الأرجح، لذلك ، على الأرجح ، يمكن للمستخدم المجهول والمسجل الخروج تجربة توصيات أكثر صلة مع الحد الأدنى من المدخلات المطلوبة.

نظام المراجعة المعزز بعنوان مراجعة الشبكة العصبية للرسم البياني بين العناصر المنقحة (RI-GNN). اختبرها الباحثون مقابل اثنين مجموعات البيانات من Amazon, مستلزمات الحيوانات الأليفة و الأفلام والتلفزيون. على الرغم من أن هذا يحل مشكلة توافر المراجعة بدقة إلى حد ما ، إلا أن التنفيذ في البرية يحتاج إلى تحديد موقع قاعدة بيانات المراجعات المناسبة وكشطها. يمكن لمصدر مجموعة البيانات هذا ، من الناحية النظرية ، أن يكون أي شيء من المنشورات على الشبكة الاجتماعية إلى الإجابات على Quora.

بالإضافة إلى ذلك ، فإن تعيينات العلاقات عالية المستوى من هذا النوع ستكون ذات قيمة لمجموعة من تطبيقات التعلم الآلي التي تتجاوز أنظمة التوصية. العديد من المشاريع الحالية يعيقها الافتقار إلى رسم الخرائط بين المجالات وداخلها بسبب محدودية الأموال والنطاق ، في حين أن الزخم التجاري لنظام التوصية بالتجارة الإلكترونية واسع المعرفة والمزود بمصادر خارجية يمكن أن يملأ هذه الفجوة.

المقاييس والاختبار

اختبر المؤلفون RI-GNN على نسختين من كل مجموعة بيانات، تتألف كل منهما من سجل مشتريات المستخدم وتقييمات عامة للمنتج. حُذفت المنتجات التي تظهر أقل من خمس مرات، وقُسِّم سجل المستخدم إلى وحدات أسبوعية. تضمنت النسخة الأولى من مجموعة البيانات جميع الجلسات التي تضم أكثر من منتج واحد، بينما تضمنت الثانية جميع الجلسات التي تضم أكثر من خمسة منتجات.

استخدم المشروع P@K (الدقة) وMRR@K (متوسط الرتبة المتبادلة) لمقاييس التقييم الخاصة به. كانت البنى المنافسة التي تم اختبارها هي: S-KNN; GRU4Rec; اس بوب; ختم; BERT4Rec; DHCN; الحملة العالمية للتعليم-GNN; ريال-GNN، و نارم.

تم تدريب الإطار على دفعات من 100 على ادم بمعدل تعلم 0.001 ، مع تعيين عدد الموضوعات إلى 24 و 20 ، على التوالي ، لـ مستلزمات الحيوانات الأليفة و الأفلام والتلفزيون.

نُشر لأول مرة في الأول من فبراير 1.