corpus

    2

    2答えて

    私はこのような一つのテキスト: 私は浙江省のテキストをトークン化する必要があります:行ごとと文1つの空の行の最後に一言。 問題は、一部の文章に「。」がないことです。最後に。だから私は "を置く必要があります。" nuの句読点がある場合の改行。 ​​

    0

    1答えて

    I want to deal with a one-line translation corpus between Japanese and Chinese like JST_JC_ENVI-abst-06A0281759-par1-sen1 ||| C&D管理施設の高度化 ||| C&D管理设施的高度化JST_JC_ENVI-abst-06A0281759-par1-sen2 ||| メーンのポ

    0

    1答えて

    私はcsvのいくつかが空で、それをコーパスに保存しているディレクトリからcsvファイルのリストを読んでいます。コーパスから空のファイルを削除する方法はありますか、後で関数 'removeSparseTerms'を使用すると問題を引き起こしているので空のCSVファイルを読み込まないでください。 directory.location<-paste("C:\\Users\\Desktop\\testFi

    1

    1答えて

    nltk tagged_sentsとtagged_wordsの違いは何ですか? これらはどちらもタプル(単語、タグ)のリストであるようです。あなたは)(タイプをすれば、彼らはdocsから両方 nltk.collections.LazySubsequence

    2

    1答えて

    実際には、ナイーブなベイズアルゴリズムを使用して、Twitterデータに基づいてセンチメント分析を実行しようとしています。 私は2000のツイートを見ています。 次のようにRスタジオにデータを取得した後、私は分割され、日付の前処理: train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_sub = sam

    0

    1答えて

    現在、私はBrown Corpusと共同で作業しており、若干問題があります。トークン化機能を適用するには、まずブラウンコーパスを文章にする必要があります。これは私がこれまで持っているものです。 from nltk.corpus import brown import nltk target_text = [s for s in brown.fileids() if s.s

    2

    1答えて

    場所へのパスを指定することで、カスタムコーパスjsonファイルを使用できるようです。しかし、私はそれがどのように行われたのか混乱しています。 chatterbotが提供する例はあまり明確ではありません。 http://chatterbot.readthedocs.io/en/stable/training.html 彼らはありません。 "./data/my_corpus/" 内部にdataとい

    7

    1答えて

    NLTK単語コーパスには「okay」、「ok」、「Okay」というフレーズはありませんか? > from nltk.corpus import words > words.words().__contains__("check") > True > words.words().__contains__("okay") > False > len(words.words()) > 2

    0

    1答えて

    私はRの新機能です。TMパッケージを使用して、シノニムを置き換えて一連のtxtドキュメントをクリーンアップしようとしています。 私は多くのデータを扱うので、最初の列の単語が2番目の列の単語に置き換えられ、excelを使用してテーブルをセットアップしようとしました。コーパス。示すように私のコードは次のとおりです。 library(tm) docs <- Corpus(DirSource("C:.

    0

    1答えて

    Rのtmパッケージにちょうど知り合いました。フォルダに別々の.txtファイルがある場合、これらをRの中のコーパスファイル に変換する方法を理解していますが、私の特定のケースでは、すべてのテキストデータが1つのファイルにあります。そのファイル内の各センテンスは1つのドキュメントを表し、先に フレーズIDとセンテンスIDを持っています。 PhraseId SentenceId 156061 8545ア