2016-08-12 3 views
0

私は分析をしたい:どの商品が市場バスケット分析でうまくいっていないのか。基本的にどの項目が一緒にキューから出ていないのかを調べる。私は、属性(属性/列が13個含まれています)が属性のさまざまな組合せのために不完全である状況があります。 例:a1、a2 .... a13。 上記の属性はすべて値を持っていてもいなくてもかまいません。しかし、値が設定されていない属性では、レコードが不完全になる場合があります。市場バスケット分析の逆数R

この状況では、不完全なレコードの組み合わせが主にレコードセットに含まれています。このパターンを知ることは、私のチームが最も注意を必要とするレコードの優先順位付けに役立つでしょう。 Aprioriアルゴリズムは利用可能な値だけを取ることがわかりますが、発生していない組み合わせを分析する必要があります。私はこの問題が過去に解決されているはずだと確信していますが、フォーラムでは何のヒントも見ません。 誰もそのような種類の経験はありますか?あるいは、私が使うべき他のアルゴリズムを提案していますか?私はこの分析にRを使用しています。そして、合計レコード:218k

+1

データに適切な統計分析方法を選択する際には、[stats.se]または[datascience.se]に質問を投稿する必要があります。これは具体的なプログラミングに関する質問ではありません。 Rを使用したいという事実は、データを分析するための適切な方法を選択することとは無関係です。 – MrFlick

答えて

1

私があなたの記載された状況を正しく把握すれば、データセットを取得したいと思います。ケースのアイテムが値を持っているか、値を持たない値のない項目が少なくとも1つあり、値が設定されていない項目のみが存在するケースです。この目的のためAprioriアルゴリズムはうまくいきます。そして、それを逆にする必要はありません。解決策はデータセットの書式設定の中にあります。値を持つ項目を取り除き、値のない項目に関連する項目の名前のような値を与えます。 a12。次に、データセットには、値のない項目と値のない項目の少なくとも1つの項目だけが含まれ、さらに値、つまりその名前によって識別できる項目も含まれます。 Aprioriアルゴリズムでは、頻出アイテムセットとその後の関連ルールをフォーマットされたデータセットから抽出することができます。関連ルールを抽出するために別のアルゴリズムを使用する必要があるかどうかについては、はい。 FP成長を使用してください。 Aprioriアルゴリズムよりも速い方法です。

0

お返事ありがとうございました。この回答は役に立ちました。各取引のすべてのヌルアイテムを分析する必要があります。すべての取引から最も多く発生しているヌルの組み合わせを確認する必要があります。 すべてのnull値を定数に置き換えようとしました。これらの定数をrhsとして取得するために、aprioriアルゴリズムでいくつか調整しましたか?しかし、私はFP成長アルゴリズムがこれにどのように役立つか、理解できませんでしたか?あなたは説明できますか?

+0

AprioriアルゴリズムとFP-Growthアルゴリズムは同じ目的を共有しています。頻出アイテムセットと関連ルールを抽出する。古いAprioriアルゴリズムは、そうすることで遅くなります。 FP-Growthでは合計2回のスキャンが必要ですが、処理ではデータセットを複数回スキャンする必要があります。 (キーワード:候補世代とFP成長木) – n01dea

関連する問題