corpus

2熱

1答えて

私はtmパッケージを初めて使用しており、助けに感謝します。 tmパッケージ（下記参照）のさまざまな機能を使って、不要なシンボルやストップワードを抽出した投稿がたくさんあります。最後に、必要なクリーンな文字列を含む201のドキュメントが残っていますが、RオブジェクトではなくVCorpusオブジェクトです。これらの処理された文書をすべて1つのテキストファイルにまとめて、長い文字列にすることはできますか

0熱

1答えて

JIRA REST APIがアップロードされたジップアタッチメントを破損しました

JIRA Rest API（バージョン2）を使用して問題にZIP添付ファイルを追加しようとしています。コードは正常に動作しているようですが、チケットの添付ファイルを見ると、添付ファイルのサイズはほぼ2倍になります。開こうとすると、破損しています。イメージファイル（私のテストではpng）を問題なくアップロードできます。私が使用していたコードは次のとおりです。 String basic = cr

1熱

2答えて

STMへのメタデータの追加R

RのSTMパッケージに問題があります。Quantumにコーパスを構築しましたが、STM形式に変換したいと思います。私は独立したCSVファイルとしてメタデータを保存しており、テキスト・ドキュメントとメタデータをマージするコードが必要です。 readCorpus（）と「変換（）関数は、自動的にコーパスにメタデータ情報を追加しないこれはQuantedaでどのように見えるか：。 EUdocvars <-

4熱

1答えて

RでQuantedaを使用する場合、テキストのコーパスから非ASCII文字を削除する最適な方法は何ですか？

私は非常に必要です。私は共通言語に変換したコーパスを持っていますが、いくつかの単語は英語に正しく変換されませんでした。したがって、私のコーパスには "（U + 00F8）"のような非ASCII文字があります。 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingF

0熱

2答えて

テキストファイルをtmコーパスに読み込むためのエンコーディングを設定する

tmコーパスを使用して多数の文書を読み込むエンコーディングを指定する必要があります。すべてのドキュメントは、UTF-8でエンコードされています。テキストエディタを使用したopenendの内容が大丈夫だが、コーパスの内容が奇妙な記号でいっぱいの場合（indicioâ。、 'sœs....）ソーステキストはスペイン語で書かれています。 es_ESの library(tm) cname <- fi

0熱

2答えて

R tmパッケージアップグレード - コーパスをデータフレームに変換する際のエラー

最新のtmアップグレードで何かが間違っているようです。私のコードは以下のようにテストデータ - data = c('Lorem ipsum dolor sit amet, consectetur adipiscing elit', 'Vestibulum posuere nisl vel lobortis vulputate', 'Quisque eget sem in

3熱

1答えて

メタデータに基づいてRのtmコーパスの文書をフィルタリングする方法は？

私はR tmのパッケージを使用していますし、私は彼らのインデックスとそのメタデータによって特定の文書を選択しようとしています： orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) meta(my_corpus[[1]]) author : a8 origin : Department headin

0熱

1答えて

コーパスの各LDAトピックの重みを計算する

私のLDAモデルを計算してトピックを検索しましたが、コーパス上の各トピックの重み/割合を計算する方法を探しています。私が手しかし from itertools import chain print(type(doc_set)) print(len(doc_set)) for top in ldamodel.print_topics(): print(top) print #

2熱

2答えて

コーパスパッケージのtolower機能がエラーをスローする

Twitterのデータを使ってテキストマイニングをしようとしています。私は、次の操作を行います #connect to twitter API setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret) #set radius and amount of requests N=200 # t

1熱

1答えて

Python NLTK Naive Bayesクラシファイア

私はNLTK Naive Bayes Classifierをフィーチャ抽出機能features_all（）で正と負のカテゴリを持つデータセットに実装しようとしています。コードを実行すると、features_all（）関数の行にエラーが発生します。ナイーブベイズのためコード： import nltk import random from nltk.corpus import stopwords