corpus

    3

    1答えて

    テキスト分類にRを使いたい。私は言葉の行列を返すためにDocumentTermMatrixを使用します。 library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm)

    0

    2答えて

    文字のベクトルからストップワードを削除しようとしています。しかし、私が直面している問題は、 "king kond"という言葉があることです。 "king"はストップワードの1つで、 "kong kong"の "king"は削除されています。 ダブルワードが削除されないようにする手段はありますか? 私のコードは次のとおりです。 text <- VCorpus(VectorSource(newmnt1

    -1

    1答えて

    これは複数回尋ねられています。これらのソリューションのどれもが私のデータでは動作しない理由の例 Finding 2 & 3 word Phrases Using R TM Package についてしかし、私は知りません。結果は、ngramのために何回ngram(2、3、または4)を選択しても、常に1グラムの単語になります。 誰でも理由を知ることができますか?私はエンコーディングが理由だと思う。 編

    0

    1答えて

    私はこのようになりますRでvcorpusを扱っています:私は、個々の文書についてのContent>コンテンツ、その後のContent>メタ> IDを呼び出すために 。後で各文書のテキストファイルを分割するために、content-> contentとcontent-> meta-> idだけを書きたいと思います。

    1

    1答えて

    は私が会話ボットライブラリーで行われ、私の最初の電報チャットボット、との問題を抱えています。 私のプロジェクトはで構成されています。 Procfile 要件(txtファイル) telegramtoken(txtファイル) ランタイム(txtファイル) NLTK(txtファイル) botusers(CSVファイル) magghybot(PYファイル) Magghy(PYファイル) 会話(LANGとい

    0

    1答えて

    からデータをダウンロードしながら、私が試した: をサーバインデックス 更新プロキシ 再インストールPythonとNLTK 変更 numpyをダウンロード中(正常にインストールされましたが、クリーニング時に例外がスローされました) ストップワードリストをダウンロードしたい。これがうまくいかない場合は、zipファイルをダウンロードしてフォルダやその他の方法で物理的に保存する方法を提案できるかどうか本当

    -1

    1答えて

    私は新人のR/tmユーザーですが、私はばかだが迷惑な問題があります。このラインを通じてTMパッケージの884キロバイトをダウンロードした後 [install.packagesは(「TM」)]、私の作業ディレクトリを設定し、自分のファイルを開くには、私はこの機能を使用しようとしました: コーパス< -Corpus (VectorSource(mycorpus $ title)) これに対応して、Rソ

    0

    2答えて

    私はテキスト解析を行っています。私は文章を数える必要があった。私のコードは: library(dplyr) library(tidytext) txt <- readLines("consolidado.txt",encoding="UTF-8") txt = iconv(txt, to="ASCII//TRANSLIT") text_df <- data_frame(line = 1:3

    0

    2答えて

    ステム付きのすべての単語のリストを元のフォームと共に取得しようとしています。 は、ここで私はこれがあなたのために役立つものになることがあり、データフレームに、このような答えを orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experi

    0

    2答えて

    テキストをトピックに分類するテキスト分類子を構築しています。 私のプログラムの第1段階では、データのクリーニングの一環として、英語以外の単語をすべて削除します。このため私はnltk.corpus.words.words()コーパスを使用しています。このコーパスの問題は、FacebookやInstagramなどの「現代的な」英語の単語を削除することです。誰かが、私が現在のものと取り替えたり、組み合わ