2017-07-11 5 views
0

Twitterのデータを使用してテキストマイニングの練習をしています。オリジナルのデータフレームには1280行があります。避けるために:LDAでLDAトピックモデルの問題

エラー(dtm_cea、K = 8): 各行入力行列のは、私が疎に排除少なくとも一つの非ゼロエントリ

を含有する必要がありますエントリーなしで任意の行をマトリックス:

rowTotals <- apply(dtm , 1, sum) 
dtm.new <- dtm[rowTotals_cea> 0, ] 
lda <- LDA(dtm.new, k = 8) 
topic <- topics(lda, 1) 

は、結果的に私のdtm.newは数行を失いました。実際には行数は1273に減少します。

実際、グラフを作成するには、元のデータフレーム(1280行)から別の列をトピック(1273行)で取得する必要があります。どのようにして元のデータでDTMの変更によりどの行を削除すべきかを特定する方法はありますか?

+0

DTMの1280 - > 1273に使用していた元のデータフレームに同じロジックを使用できませんでしたか? – bouncyball

答えて

1

削除するアイテムを追跡したり、削除するインデックスを再構築する必要があります。

rowstokeep <- rowTotals > 0 
newdataframe <- originaldataframe[rowstokeep, ] 
+0

ありがとうございました。問題が解決しました。 –

関連する問題