corpus

3熱

1答えて

Rの中でDocumentTermMatrixを 'dictionary'パラメータで使用する

テキスト分類にRを使いたい。私は言葉の行列を返すためにDocumentTermMatrixを使用します。 library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm)

0熱

2答えて

tmがダブルワードからストップワードを削除しないようにします。

文字のベクトルからストップワードを削除しようとしています。しかし、私が直面している問題は、 "king kond"という言葉があることです。 "king"はストップワードの1つで、 "kong kong"の "king"は削除されています。ダブルワードが削除されないようにする手段はありますか？私のコードは次のとおりです。 text <- VCorpus(VectorSource(newmnt1

-1熱

1答えて

tmを使用して2語句を検索するR

これは複数回尋ねられています。これらのソリューションのどれもが私のデータでは動作しない理由の例 Finding 2 & 3 word Phrases Using R TM Package についてしかし、私は知りません。結果は、ngramのために何回ngram（2、3、または4）を選択しても、常に1グラムの単語になります。誰でも理由を知ることができますか？私はエンコーディングが理由だと思う。編

0熱

1答えて

コーパスの要素にアクセスしてRでファイルに書き込むにはどうすればよいですか？

私はこのようになりますRでvcorpusを扱っています：私は、個々の文書についてのContent>コンテンツ、その後のContent>メタ> IDを呼び出すために。後で各文書のテキストファイルを分割するために、content-> contentとcontent-> meta-> idだけを書きたいと思います。

1熱

1答えて

NLTKコーパス展開会話ボットHerokuの

は私が会話ボットライブラリーで行われ、私の最初の電報チャットボット、との問題を抱えています。私のプロジェクトはで構成されています。 Procfile 要件（txtファイル） telegramtoken（txtファイル）ランタイム（txtファイル） NLTK（txtファイル） botusers（CSVファイル） magghybot（PYファイル） Magghy（PYファイル）会話（LANGとい

0熱

1答えて

エラー（urlopen）Pythonシェル（NLTK）

からデータをダウンロードしながら、私が試した：をサーバインデックス更新プロキシ再インストールPythonとNLTK 変更 numpyをダウンロード中（正常にインストールされましたが、クリーニング時に例外がスローされました）ストップワードリストをダウンロードしたい。これがうまくいかない場合は、zipファイルをダウンロードしてフォルダやその他の方法で物理的に保存する方法を提案できるかどうか本当

-1熱

1答えて

R、 "tm"パッケージ - エラー：コーパス機能が見つかりません

私は新人のR/tmユーザーですが、私はばかだが迷惑な問題があります。このラインを通じてTMパッケージの884キロバイトをダウンロードした後 [install.packagesは（「TM」）]、私の作業ディレクトリを設定し、自分のファイルを開くには、私はこの機能を使用しようとしました：コーパス< -Corpus （VectorSource（mycorpus $ title））これに対応して、Rソ

0熱

2答えて

R - データフレーム内の単語の削除が削除されます

私はテキスト解析を行っています。私は文章を数える必要があった。私のコードは： library(dplyr) library(tidytext) txt <- readLines("consolidado.txt",encoding="UTF-8") txt = iconv(txt, to="ASCII//TRANSLIT") text_df <- data_frame(line = 1:3

0熱

2答えて

stemDocumentをRで実行した後、元のformとともにすべてのステム付き単語のリストを取得する方法

ステム付きのすべての単語のリストを元のフォームと共に取得しようとしています。は、ここで私はこれがあなたのために役立つものになることがあり、データフレームに、このような答えを orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experi

0熱

2答えて

'modern' nltk wordsコーパスを見つけよう

テキストをトピックに分類するテキスト分類子を構築しています。私のプログラムの第1段階では、データのクリーニングの一環として、英語以外の単語をすべて削除します。このため私はnltk.corpus.words.words（）コーパスを使用しています。このコーパスの問題は、FacebookやInstagramなどの「現代的な」英語の単語を削除することです。誰かが、私が現在のものと取り替えたり、組み合わ