Artificial Intelligence

画像のみに基づく AI ソウルメイト推薦システム

更新中 on 2021 年 8 月 27 日

英国の研究者らは、ニューラルネットワークを使用して、オンラインデートのマッチングのための完全に画像ベースのレコメンダーシステムを開発しました。このシステムでは、(職業、年齢などのプロフィール情報ではなく) XNUMX 人のユーザーがお互いの写真に惹かれるかどうかのみが考慮されます。）、正確な一致を取得するという点で、あまり「浅い」システムよりも優れていることがわかりました。

結果として得られるシステムは、Temporal Image-Based Reciprocal Recommender (TIRR) と呼ばれ、リカレントニューラルネットワーク (RNN) を使用して、ユーザーが一致する可能性のあるものを閲覧しているときに遭遇した顔に対するユーザーの歴史的な好みを解釈します。

　紙タイトルは – おそらくがっかりするかもしれませんが – オンラインデートで相互に推薦するために必要なのは写真だけですこれはブリストル大学の XNUMX 人の研究者によるもので、同様のシステム (と呼ばれる) を特に改良したものです。イムレック）2020年に同じチームからリリースされました。

テストでは、システムは予測能力において最先端の精度を獲得しました。相互ユーザー間のマッチングを改善し、研究者の2020年の研究だけでなく、デートプロフィールのより詳細なテキストベースの情報を考慮した他のコンテンツベースのデート相互推奨システムも改善しました。

現実世界の年代測定データセット

TIRRは、「数百万人の登録ユーザー」を抱える匿名の「人気の」オンライン出会い系サービスによって提供されたユーザー情報に基づいてトレーニングされた。このサービスでは、ユーザーはお互いのプロフィールを「いいね！」した場合にのみ通信できるようになる。使用されたデータのサブセットには、男性と女性に均等に分割された 200,000 人の被験者と、すべてのデートプロフィールにわたってユーザーが表明した約 800,000 件の好みが含まれていました。

データを提供する匿名の出会い系サービスは異性間のマッチングのみをサポートしているため、調査の対象となったのは男性/女性のマッチングのみです。

TIRR は、プロファイル画像のみに基づいて XNUMX つのプロファイル間の一致の確率を直接計算することにより、この分野における以前の相反レコメンダーシステム (RRS) 設計を改良しています。従来のシステムでは、代わりに XNUMX つの一方向の好みを予測し、それらを集約して予測を取得していました。

研究者らは、出会い系サービスから削除されたユーザー（自発的な退会を含む何らかの理由）を除外し、顔ベースの写真を含まないプロフィールも除外した。

出会い系サイトが時間の経過とともにアルゴリズムを微調整する際に発生する可能性のある潜在的な異常を回避するために、ユーザー履歴は 15 年前までに制限されていました。また、ユーザー設定は最大 XNUMX 個に制限されていました。これは、これらの設定がモデル設計を証明するのに十分であることが実証されたためです。一方、設定をより広範に使用すると、パフォーマンスが低下し、トレーニング時間が増加しました。

さらに、より熱心なユーザーや長期ユーザーの中には、数千これにより、取得された特徴の重みが歪められ、トレーニング時間がさらに長くなる危険性があった可能性があります。

シャムネットワーク

TIRR は次を使用して定式化されます。シャムネットワーク、通常は次の目的で使用されます「ワンショット」学習.

テンプレートシャムネットワーク。並列畳み込みニューラルネットワーク (CNN) は重みを共有しますが、データは共有しません。また、各 CNN の出力から導出された損失関数と、グラウンドトゥルースラベルも共有します。出典：https://arxiv.org/pdf/2108.11714.pdf

このネットワークは、ニューラルネットワークで一般的な損失関数であるバイナリクロスエントロピーを使用してトレーニングされました。対照的な損失。後者は XNUMX つの顔間のパリティを評価するシステムで最も効果的ですが、これは TIRR の目的ではないため、このコンテキストではパフォーマンスが低いアプローチです。

システムは、トレーニングが同じデータに対して何度も反復されるときに開発される情報を保持し、その情報に基づいて構築する必要があり、TIRR のシャムネットワークは LSTM (長期短期記憶) ネットワークを使用して、これらの決定を行い、フレームワークが洞察を構築する際に、関連すると思われる機能が場当たり的に破棄されないようにします。

TIRR に特有のシャムネットワークアーキテクチャ。

研究者らは、すべてのデータが入力されるとネットワークのトレーニングが非常に遅くなり、その後、データの 2020 つの異なるサブセットを使用してトレーニングを XNUMX つの段階に分割することを発見しました。研究者らの XNUMX 年の実験では、男性と女性のデータセットを個別にトレーニングすることで相互レコメンダーシステムのパフォーマンスが向上することがすでに実証されていたため、これには追加の利点もあります。

TIRR のシャムネットワークの個別のトレーニングセッションの内訳。

テスト

TIRR のパフォーマンスを評価するために、研究者らは取得したデータの一部を脇に置いて、完全に統合されたシステムを通して実行しました。ただし、このシステムは非常に新しいため、比較できる直接類似した従来のシステムはありません。

したがって、研究者らは最初に受信機動作特性曲線を確立しました (ROC) 次元削減に均一多様体近似と射影を使用する前の、シャムネットワークのベースライン (UMAP) 好き嫌いの一貫した流れを確立するために、視覚化を容易にするために 128 次元のベクトルをスリム化します。

左側は、パフォーマンスのベースライン指標としてのシャムネットワークの ROC です。右側の UMAP 視覚化では、「好き」が赤、「嫌い」が黒で表示されます。

TIRR は、研究者の以前の研究である ImRec (上記を参照) を含む、同様の目的を持つ協調フィルタリングおよびコンテンツベースのシステムに対してテストされました。偵察、2010 年の RRS、および協調フィルタリングアルゴリズム RCF （出会い系プロフィールのテキスト内容に基づく 2015 年の出会い系 RRS）および LFRR （2019年の同様のプロジェクト）。

すべてのケースにおいて、TIRR は、LFRR と比較するとほんのわずかではあるものの、優れた精度を提供できました。これは、プロフィールテキストの内容と対象者のプロフィール写真の魅力の知覚レベルとの間の相関因子を示している可能性があります。

画像ベースの TIRR とよりテキストベースの LFRR がほぼ同等であることから、少なくとも XNUMX つの可能性が考えられます。XNUMX つは、視覚的な魅力に対するユーザーの認識が、プロフィールのテキストコンテンツの影響を受けるということです。または、テキストコンテンツは、関連する画像が魅力的であると認識されなかった場合よりも大きな注目と評価を受ける可能性があります。

明らかな理由により、研究チームは TIRR のデータセットやソースコードを公開できませんが、他のチームがそのアプローチを複製して確認することを奨励しています。

注：メインのイラストで使用されている画像は、thispersondoesnotexist.com からのものです。