text-mining

    0

    1答えて

    回帰問題のテキストフィーチャーについて、いくつかのフィーチャー選択をしようとしています。現在、トレーニングセットには〜200Kの機能があります。私はscikit-learnの中で機能選択ツールのいくつかを使用したいが、f_regressionスコアリング機能をSelectKBest変圧器に渡そうとするときには、scipyの疎な行列で作業することに問題がある。 f_regressionスコアリング関

    2

    1答えて

    大学のプロジェクトについては、仮想建設現場に関するいくつかのコメントを受けて、実際の状態(just started,in construction、terminated)を検出するソフトウェアを作成する必要があります。私はフランスへの旅行を持っているために新しく建設された橋に行ってきました。昨日、」 「我々はイギリス海峡の橋を歩くことができます聞いて幸せ」 :たとえば 、コメントを与えられました友

    1

    1答えて

    Rを使用してテキストマイニングを行う場合、テキストデータを再処理した後、さらに調査するために文書用語マトリックスを作成する必要があります。しかし、中国語に似て、英語には「意味論的距離」、「機械学習」などのいくつかの段階がありますが、それらを単語に分割すると全く異なる意味があります。単語(term)。

    1

    1答えて

    特定のWebページに基づいて少なくとも2回出現する単語のリストを作成したいと思います。 データを取得し、各単語ごとにカウントを持つリストを取得することに成功しましたが、 この方法をとどめるために大文字の単語を保持する必要があります。今度は、小文字だけの単語リストが生成されます。 たとえば、「マイアミ」という言葉は「マイアミ」に変わり、「マイアミ」として必要になります。 どのようにして元の構造で単語

    1

    1答えて

    テキストファイルの最長行の長さを見つける方法を探しています。 など。 tmパッケージの単純なデータセットを考えてみましょう。 install.packages("tm") library(tm) txt <- system.file("texts", "txt", package = "tm") ovid <- VCorpus(DirSource(txt, encoding = "UTF-

    0

    1答えて

    36の警告メッセージを受信して​​います: を "18: 不完全な最終行がで見つかった 'C::/text_data/2006DefenseWhitePaper.docx' readLines(Y、エンコーディング= X $エンコーディング)では、" さらに 、私は私のコーパスを検査するとき、それはこのようになります: $\`1998DefenseWhitePaper.docx` PK l"%

    1

    2答えて

    RにDFMを作成する前に、異なるフィーチャにウェイトを割り当てることは可能ですか? DFMのmydfmがどのように見えるR str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) でこの例を考えてみましょう:私はウェイト割り当てたい、 docs

    3

    2答えて

    sample1 = read.csv("pirate.csv") sample1[,7] [1] >>xyz>>hello>>mate 1 [2] >>xyz>>hello>>mate 2 [3] >>xyz>>mate 3 [4] >>xyz>>mate 4 [5] >>xyz>>hello>>mate 5 [6] >>xyz>>hello>>mate 6 最後に>>の後に続く

    -2

    1答えて

    テキストを単語にトークン化する必要があります。しかし、私はテキストの言語を知らない。私はどんな言語でもかまいません。だから私はテキスト言語を検出してトークン化するTokenizerを構築しなければならない。 Tokenizerがトークン化できない場合は、「トークン化できない」のようなフラグを返します。 可能であれば、非スペース言語をトークン化するのを手伝ってください。

    1

    1答えて

    こんにちは:他の人が作成した否定的な用語の辞書があります。彼らがどうやってステミングをやっているのかは分かりませんが、彼らはPorter Stemer以外のものを使ったようです。この辞書には、ステミングが起きると思われるワイルドカード文字(*)があります。しかし、Rコンテキストでgrep()やtmパッケージを使用する方法はわからないので、部分一致をgrepする方法を見つけたいと考えています。 だか