2

ムービー、音楽、ブックのおすすめにコラボレーションフィルタリング(CF)がどのように使用されているかはわかっています。論文「Collaborative Topic Modeling for Recommending Scientific Articles」では、著者は〜5,500人のユーザーと〜17,000の科学論文に適用された共同フィルタリングの例を示しています。約200,000のユーザ - アイテムの対によって、ユーザ - 記事マトリクスは明らかに非常に疎です。ニュース記事またはブログ投稿のコラボレーティブなフィルタリング

matrix factorizationとの共同フィルタリングをTwitterで共有されているすべてのニュース記事について行うとどうなりますか?この行列は、CFをあまり適用できないようにする(科学論文の場合よりも)より疎であろう。もちろん、記事のテキストを考慮して、コンテンツ認識分析を行うこともできますが、それは私の焦点では​​ありません。あるいは、ユーザー記事マトリックスをより密にするために、時間窓を制限することができます(たとえば、最終日または週に共有されるすべてのニュース記事に焦点を当てる)。他のアイデアは、行列が非常に疎であるという事実とどのように戦うか? CFの分野におけるニュース記事の推奨事項の調査結果はどうなっていますか?ありがとうございます!

+1

疎行列の問題は何ですか?行列がメモリに収まらない、または結果が不正確であることを意味しますか? – ffriend

答えて

4

ユーザーツーオブジェクトフィルタではなく、オブジェクト間コラボレーションフィルタを使用してみてください。とにかくあなたのユースケースではほとんど無関係なので、時間の経過と共に関連ペア(および発生率の低いペア)をエージアウトします。

Netflix Prizeでその日にいくつかの作業を行い、どのアイテムがユーザーのお気に入りであるかを予測するために基本モデルを大幅に上回るパフォーマンスが得られることがすぐにわかりました。残念ながら、基本的にはスカラープレディクタではなくランクモデルなので、比較するRMSE値はありませんでした。

私はこの同じシステムの生産バージョンを書いたので、この方法が有効であることは知っています。私の初期のテストでは、ユーザーの最高評価映画の50%が削除されたというタスクがあると、オブジェクト - オブジェクトモデルは基本スロープよりもユーザーの実際のお気に入りの約16倍多くを正しく予測(つまり置き換え)一人のモデル。さらに、テーブルサイズは管理可能です。そこから、アプリケーションに応じてソート順などに対して収益性の重みを含めることは簡単です。

希望すると便利です。私はプロダクションで稼働中のバージョンを持っていますが、まだベータ版のクライアントを探しています...誰かがあなたに聞いてみたいと思うランを与える時間があれば。

ジェブ・ストーン博士

www.selloscope.com

関連する問題