text-mining

0熱

1答えて

Scipy Sparse Arraysを使用したF-Regressionのフィーチャーの選択

回帰問題のテキストフィーチャーについて、いくつかのフィーチャー選択をしようとしています。現在、トレーニングセットには〜200Kの機能があります。私はscikit-learnの中で機能選択ツールのいくつかを使用したいが、f_regressionスコアリング機能をSelectKBest変圧器に渡そうとするときには、scipyの疎な行列で作業することに問題がある。 f_regressionスコアリング関

2熱

1答えて

単語分類アルゴリズムプロコン

大学のプロジェクトについては、仮想建設現場に関するいくつかのコメントを受けて、実際の状態（just started,in construction、terminated）を検出するソフトウェアを作成する必要があります。私はフランスへの旅行を持っているために新しく建設された橋に行ってきました。昨日、」「我々はイギリス海峡の橋を歩くことができます聞いて幸せ」：たとえば、コメントを与えられました友

1熱

1答えて

Rテキストマイニング文書を語句ではなくフレーズに分割する方法

Rを使用してテキストマイニングを行う場合、テキストデータを再処理した後、さらに調査するために文書用語マトリックスを作成する必要があります。しかし、中国語に似て、英語には「意味論的距離」、「機械学習」などのいくつかの段階がありますが、それらを単語に分割すると全く異なる意味があります。単語（term）。

1熱

1答えて

テキストマイニング中に単語の元の構造を保持する方法

特定のWebページに基づいて少なくとも2回出現する単語のリストを作成したいと思います。データを取得し、各単語ごとにカウントを持つリストを取得することに成功しましたが、この方法をとどめるために大文字の単語を保持する必要があります。今度は、小文字だけの単語リストが生成されます。たとえば、「マイアミ」という言葉は「マイアミ」に変わり、「マイアミ」として必要になります。どのようにして元の構造で単語

1熱

1答えて

テキストデータセットの最長行

テキストファイルの最長行の長さを見つける方法を探しています。など。 tmパッケージの単純なデータセットを考えてみましょう。 install.packages("tm") library(tm) txt <- system.file("texts", "txt", package = "tm") ovid <- VCorpus(DirSource(txt, encoding = "UTF-

0熱

1答えて

私は私が読ん-にするために、マイドキュメント細かいR.すべての負荷にしようとしていますが、私のような36件の警告メッセージを受信（読み取りにするテキストreadLinesを使用しようとしています）と

36の警告メッセージを受信しています：を "18：不完全な最終行がで見つかった 'C：：/text_data/2006DefenseWhitePaper.docx' readLines（Y、エンコーディング= X $エンコーディング）では、" さらに、私は私のコーパスを検査するとき、それはこのようになります： $\`1998DefenseWhitePaper.docx` PK l"%

1熱

2答えて

Rの異なるフィーチャにウェイトを割り当てる

RにDFMを作成する前に、異なるフィーチャにウェイトを割り当てることは可能ですか？ DFMのmydfmがどのように見えるR str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) でこの例を考えてみましょう：私はウェイト割り当てたい、 docs

3熱

2答えて

シンボルの後にテキストを抽出するR

sample1 = read.csv("pirate.csv") sample1[,7] [1] >>xyz>>hello>>mate 1 [2] >>xyz>>hello>>mate 2 [3] >>xyz>>mate 3 [4] >>xyz>>mate 4 [5] >>xyz>>hello>>mate 5 [6] >>xyz>>hello>>mate 6 最後に>>の後に続く

-2熱

1答えて

言語テキストをトークン化するためのRのライブラリは何ですか（中国語、日本語、アラビア語など）

テキストを単語にトークン化する必要があります。しかし、私はテキストの言語を知らない。私はどんな言語でもかまいません。だから私はテキスト言語を検出してトークン化するTokenizerを構築しなければならない。 Tokenizerがトークン化できない場合は、「トークン化できない」のようなフラグを返します。可能であれば、非スペース言語をトークン化するのを手伝ってください。

1熱

1答えて

R：grepとtmパッケージを使用した部分一致辞書の用語

こんにちは：他の人が作成した否定的な用語の辞書があります。彼らがどうやってステミングをやっているのかは分かりませんが、彼らはPorter Stemer以外のものを使ったようです。この辞書には、ステミングが起きると思われるワイルドカード文字（*）があります。しかし、Rコンテキストでgrep（）やtmパッケージを使用する方法はわからないので、部分一致をgrepする方法を見つけたいと考えています。だか