2012-09-27 28 views
5

tmパッケージを使用して、用語ドキュメントマトリックス内の特定の単語に関連する単語を探しようとしています。パッケージtmのfindAssocsに問題がある

私はこのためにfindAssocsを使用しています。 findAssocsの引数は:

  • x:用語 - ドキュメントマトリックスです。
  • 用語:用語を保持する文字。
  • corlimit:相関の低い結合限界の数値です。

私は一貫して私の結果

例としてnumeric(0)を取得しています:

findAssocs(test.dtm, "investment", 0.90) 
>numeric(0) 

誰もがfindAssocsに精通しており、私が間違っているのか知っていますか?または、結果が意味することができるのは、誰でもより広範に知っていますか?numeric(0)

ご協力いただきありがとうございます。

+0

再現可能な例を提供してもらえれば分かります。 –

+0

私はこの問題がなぜ恩恵を受けているのか分かりませんが、すでに完全に良い答えがあります。閾値が高すぎるため、関連する単語がありません – scoa

答えて

2

この結果は、0.90の文書に用語「投資」が関連付けられている単語がないことを示しています。 0.05のような低い閾値を試し、より少ない用語をもたらす閾値まであなたの道を進めてください。

2

同じnumeric(0)が届いていますが、Corpusには1つのドキュメントしかないので、document term matrixには1つの列しかないと思います。 TermDocumentMatrix()をテストし、multi-column matrixがあるかどうか確認してください。つまり、1つの文書内で関連付けを見つけるにはどうすればいいですか?

+1

これは実際の回答ではありません。 – Dason

+0

@Dason、私は同意しますが、それは役に立つ手がかりです。同じエラーメッセージが表示されたので、tdmに1つのドキュメントしかない場合は 'findAssocs'が動作しませんが、複数のドキュメントがある場合は正常に動作するという主張をテストしました。 – Ben

0

この機能は、複数のテキスト文書を分析する場合にのみ機能します。私が思いついた唯一の実行可能な解決策は、テキスト文書の複製を作成して分析を実行することです。しかし、これが何らかの形で結果を変えるかどうかは不確実です。追加のフィードバックがあれば感謝します。

関連する問題