corpus

    2

    1答えて

    私はtmパッケージを初めて使用しており、助けに感謝します。 tmパッケージ(下記参照)のさまざまな機能を使って、不要なシンボルやストップワードを抽出した投稿がたくさんあります。最後に、必要なクリーンな文字列を含む201のドキュメントが残っていますが、RオブジェクトではなくVCorpusオブジェクトです。これらの処理された文書をすべて1つのテキストファイルにまとめて、長い文字列にすることはできますか

    0

    1答えて

    JIRA Rest API(バージョン2)を使用して問題にZIP添付ファイルを追加しようとしています。 コードは正常に動作しているようですが、チケットの添付ファイルを見ると、添付ファイルのサイズはほぼ2倍になります。開こうとすると、破損しています。 イメージファイル(私のテストではpng)を問題なくアップロードできます。 私が使用していたコードは次のとおりです。 String basic = cr

    1

    2答えて

    RのSTMパッケージに問題があります。Quantumにコーパスを構築しましたが、STM形式に変換したいと思います。私は独立したCSVファイルとしてメタデータを保存しており、テキスト・ドキュメントとメタデータをマージするコードが必要です。 readCorpus()と「変換()関数は、自動的にコーパスにメタデータ情報を追加しない これはQuantedaでどのように見えるか:。 EUdocvars <-

    4

    1答えて

    私は非常に必要です。私は共通言語に変換したコーパスを持っていますが、いくつかの単語は英語に正しく変換されませんでした。したがって、私のコーパスには "(U + 00F8)"のような非ASCII文字があります。 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingF

    0

    2答えて

    tmコーパスを使用して多数の文書を読み込むエンコーディングを指定する必要があります。 すべてのドキュメントは、UTF-8でエンコードされています。テキストエディタを使用したopenendの内容が大丈夫だが、コーパスの内容が奇妙な記号でいっぱいの場合(indicioâ。、 'sœs....) ソーステキストはスペイン語で書かれています。 es_ESの library(tm) cname <- fi

    0

    2答えて

    最新のtmアップグレードで何かが間違っているようです。私のコードは以下のようにテストデータ - data = c('Lorem ipsum dolor sit amet, consectetur adipiscing elit', 'Vestibulum posuere nisl vel lobortis vulputate', 'Quisque eget sem in

    3

    1答えて

    私はR tmのパッケージを使用していますし、私は彼らのインデックスとそのメタデータによって特定の文書を選択しようとしています: orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) meta(my_corpus[[1]]) author : a8 origin : Department headin

    0

    1答えて

    私のLDAモデルを計算してトピックを検索しましたが、コーパス上の各トピックの重み/割合を計算する方法を探しています。私が手しかし from itertools import chain print(type(doc_set)) print(len(doc_set)) for top in ldamodel.print_topics(): print(top) print #

    2

    2答えて

    Twitterのデータを使ってテキストマイニングをしようとしています。私は、次の操作を行います #connect to twitter API setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret) #set radius and amount of requests N=200 # t

    1

    1答えて

    私はNLTK Naive Bayes Classifierをフィーチャ抽出機能features_all()で正と負のカテゴリを持つデータセットに実装しようとしています。コードを実行すると、features_all()関数の行にエラーが発生します。ナイーブベイズのため コード: import nltk import random from nltk.corpus import stopwords