text-mining

    1

    1答えて

    にインポートするので、すでにTDMを持っていますが、それはExcel上にあります。だから私はそれをCSVとして保存しました。今私はいくつかの分析をしたいと思いますが、tmパッケージを使用してTDMとしてロードすることはできません。私のCSVは、このようなものになります。 item01 item02 item03 item04 red 0 1 1 0 circle 1

    0

    1答えて

    トピックモデリング(lda)に関する質問があります。 トピックモデリングの原則を完全に理解していないため、質問が奇妙に思えるかもしれません。 最後にこのフレーズはランダムですが、それは高い頻度(確率)ですか? test = ranking[:5] このフレーズの正確な意味はなんですか? 私のコードは、ドキュメントの数と同じ数のトピックを取得しました(ドキュメントの数よりも減らすことはできないと

    0

    2答えて

    ステム付きのすべての単語のリストを元のフォームと共に取得しようとしています。 は、ここで私はこれがあなたのために役立つものになることがあり、データフレームに、このような答えを orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experi

    1

    2答えて

    私は、通常、以下の構造を持つ特定の入力テキストの内容を抽出するためにpyparsing apiを使用しています。 Key1 : Value1 \n Key2 : Value2 \n . : . \n . : . \n . : . \n Keyn : . \n 場合によっては、特定のキーの値が長くなり、複数の行に書き込まれることがあります。 Ke

    0

    3答えて

    私は2つの単語のベクトルを持っています。 Corpus<- c('animalada', 'fe', 'fernandez', 'ladrillo') Lexicon<- c('animal', 'animalada', 'fe', 'fernandez', 'ladr', 'ladrillo') 私は、レキシコンとコーパスの間で最良のマッチングを行う必要があります。 私は多くの方法を試し

    1

    1答えて

    特定のヘッダーで始まる特定のテキストの内容を抽出しようとしています。この目的のために Header Text_A blablabla blablablabla Header Text_B blablablablablan blablaa 、私はそのようにthepyparsing APIを使用している:私は、上記ヘッダを持つ唯一のエントリテキストを有する場合 ParserElemen

    0

    1答えて

    私はRTextToolsパッケージ(hereとCRANマニュアルで、私が.txtファイルに解決したいくつかのドキュメントをテキストマイニングするために)を使いたいと思います。 GitHub) フォルダのパス名を取るのread_dataテキストファイル、およびCSVラベリングファイル名と研修値を読み取ります。 私が実行したテキストファイルの私のディレクトリには、このコマンド df_text <- r

    0

    1答えて

    私は自分のデータセットでstandford講義で述べたSVDメソッドを再現したいと思います。講義のスライドは、次の通りである 私のデータセットが生成され、CountVectorizerから処理 <13840x13840 sparse matrix of type '<type 'numpy.int64'>' with 597828 stored elements in Compressed Sp

    0

    1答えて

    私の質問は、RがURLリンクを読むことができるかどうかです。私が使用している例は、説明の目的のためだけです。私が読んでいる(ランダムに選ばれた)次のウェブページがあるとします。 https://www.mcdb.ucla.edu/faculty それは、私は、例えば次のようなWebページを読み、各URLのリンクにアクセスして、特定のキーワードの検索を行うことができますスクリプトを作成しようとしてい

    3

    1答えて

    薬の説明を格納するテーブルから、各エントリの製品名、強度、製品の数量、製薬会社を特定する必要があります。目標は、あらかじめ定義された構造を持つテーブルのコピーを持つことです。 現在のテーブル: 正規化されたテーブル: これまでのところ、私は自然言語処理の少し読んだが、私は別のアプローチを知りたいです。私はRegexを使うことを考えていましたが、多くの場合があります。 あらゆる種類の洞察が認められる