私は基本的に以下のように見えますかなり大きなデータフレームを持っている:巨大なパンダのデータフレームで順列を見つけますか?
df_apple = pd.DataFrame({'_id': ['A','B' ,'C'], 'apple': ['1', '0', '1'], 'orange': ['1', '1', '0'], 'kiwi': ['1', '0', '1']})
私は機能と_id
あたりバイナリclassifcationの列を持っています。私はapple
、orange
、およびkiwi
の順列/組み合わせのすべての個体(_id
)の頻度と総数を見つけようとしています。これはこの質問hereに似ています。
、組み合わせapple
、orange
、およびkiwi
はapple == 0 & orange==1 & kiwi==0
が全くないように見える組み合わせながら、1時間(_id == A
)が表示されます。
私は、次の防災情報が含まれている必要があり、出力を作成しようとしています:
df_combination = pd.DataFrame({'_id': ['Apple, Orange and Kiwi','Only Orange' ,'Apple and Kiwi but not Orang'], 'Count': ['1', '1', '1']})
すなわち組み合わせが見つかり、どのように頻繁にされた私に言ってデータフレーム、。私はまったく出現しない組み合わせには興味がありません。
ただし、私のデータフレームは約300列です。私はそれらを先験的に指定することはできず、これを数学的に解決するには年月がかかるだろう。どのように良い方法でこれを解決するための任意のアイデア?
可能な複製を[同じ列内のすべての可能な順列の列パンダDATAFRAME](https://stackoverflow.com/questions/35518308/all-possible-permutations -columns-pandas-data-within-the-same-column) –
あなたは300の大きさを知っていますか?ありますか? –
[関連ルール](https://en.wikipedia.org/wiki/Association_rule_learning)を構築しようとしていますか? – ayhan