text-mining

1熱

1答えて

にインポートするので、すでにTDMを持っていますが、それはExcel上にあります。だから私はそれをCSVとして保存しました。今私はいくつかの分析をしたいと思いますが、tmパッケージを使用してTDMとしてロードすることはできません。私のCSVは、このようなものになります。 item01 item02 item03 item04 red 0 1 1 0 circle 1

0熱

1答えて

トピックモデリングの命令解釈

トピックモデリング（lda）に関する質問があります。トピックモデリングの原則を完全に理解していないため、質問が奇妙に思えるかもしれません。最後にこのフレーズはランダムですが、それは高い頻度（確率）ですか？ test = ranking[:5] このフレーズの正確な意味はなんですか？私のコードは、ドキュメントの数と同じ数のトピックを取得しました（ドキュメントの数よりも減らすことはできないと

0熱

2答えて

stemDocumentをRで実行した後、元のformとともにすべてのステム付き単語のリストを取得する方法

ステム付きのすべての単語のリストを元のフォームと共に取得しようとしています。は、ここで私はこれがあなたのために役立つものになることがあり、データフレームに、このような答えを orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experi

1熱

2答えて

複数行のテキストをpyparsingに一致させる

私は、通常、以下の構造を持つ特定の入力テキストの内容を抽出するためにpyparsing apiを使用しています。 Key1 : Value1 \n Key2 : Value2 \n . : . \n . : . \n . : . \n Keyn : . \n 場合によっては、特定のキーの値が長くなり、複数の行に書き込まれることがあります。 Ke

0熱

3答えて

Rとの文字列一致：可能な限り一致する文字列を見つける

私は2つの単語のベクトルを持っています。 Corpus<- c('animalada', 'fe', 'fernandez', 'ladrillo') Lexicon<- c('animal', 'animalada', 'fe', 'fernandez', 'ladr', 'ladrillo') 私は、レキシコンとコーパスの間で最良のマッチングを行う必要があります。私は多くの方法を試し

1熱

1答えて

特定のヘッダーの内容を抽出するためにpyparsing

特定のヘッダーで始まる特定のテキストの内容を抽出しようとしています。この目的のために Header Text_A blablabla blablablabla Header Text_B blablablablablan blablaa 、私はそのようにthepyparsing APIを使用している：私は、上記ヘッダを持つ唯一のエントリテキストを有する場合 ParserElemen

0熱

1答えて

.txtファイルをread_data（RTextTools）を使用してデータフレームに追加します。 CSV参照でエラーが発生しました

私はRTextToolsパッケージ（hereとCRANマニュアルで、私が.txtファイルに解決したいくつかのドキュメントをテキストマイニングするために）を使いたいと思います。 GitHub）フォルダのパス名を取るのread_dataテキストファイル、およびCSVラベリングファイル名と研修値を読み取ります。私が実行したテキストファイルの私のディレクトリには、このコマンド df_text <- r

0熱

1答えて

疎な対称行列でSVDを実行すると、Pythonのカーネルが死んでしまう

私は自分のデータセットでstandford講義で述べたSVDメソッドを再現したいと思います。講義のスライドは、次の通りである私のデータセットが生成され、CountVectorizerから処理 <13840x13840 sparse matrix of type '<type 'numpy.int64'>' with 597828 stored elements in Compressed Sp

0熱

1答えて

あるURLから別のURLへの掻爬R

私の質問は、RがURLリンクを読むことができるかどうかです。私が使用している例は、説明の目的のためだけです。私が読んでいる（ランダムに選ばれた）次のウェブページがあるとします。 https://www.mcdb.ucla.edu/faculty それは、私は、例えば次のようなWebページを読み、各URLのリンクにアクセスして、特定のキーワードの検索を行うことができますスクリプトを作成しようとしてい

3熱

1答えて

テキストの中のパターンを特定し、それらを分類する方法

薬の説明を格納するテーブルから、各エントリの製品名、強度、製品の数量、製薬会社を特定する必要があります。目標は、あらかじめ定義された構造を持つテーブルのコピーを持つことです。現在のテーブル：正規化されたテーブル：これまでのところ、私は自然言語処理の少し読んだが、私は別のアプローチを知りたいです。私はRegexを使うことを考えていましたが、多くの場合があります。あらゆる種類の洞察が認められる