corpus

9熱

2答えて

Rのtmパッケージを使用して、各行がフィードバックの異なるインスタンスであるという顧客からのフィードバックのCSVファイルを取得しようとしています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいが、DocTerms Matrixのフィードバックを比較できるように、各行をコーパス内の別のドキュメントにしたい。私のデータセットには10,000以上の行があります。もともと私は次

15熱

1答えて

私はへの文書の各セットの10件の最も頻度の高い用語を検索したいR.</p> <p>に<code>tm</code>パッケージで作成したいくつかの<code>TermDocumentMatrix</code>秒を持っているR

にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる：定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

5熱

1答えて

私はpython/nltkの中で完全なpenn treebankデータセットを使うことができます

私はNLTKパッケージをPythonで使って学びたいと思っています。特に、NLTKでpenn tree bankデータセットを使用する必要があります。私が知る限り、nltk.download('treebank')と呼ぶと、私はデータセットの5％を得ることができます。しかし、私はtar.gzファイルに完全なデータセットを持っており、それを使いたいと思います。あなたはペンツリーバンクのフルインストー

0熱

3答えて

テキストファイルの内容に基づいてコーパスをサブセット化する

私はテキスト解析を行うためにRとtmパッケージを使用しています。私は、特定の式が個々のテキストファイルの内容内にあるかどうかに基づいて、コーパスのサブセットを構築しようとしています。私は20個のテキストファイル（この例ではあなたにlukeAに感謝）とコーパス作成します。私は今、サブセット・コーパスを作成するには、文字列「低価格化」が含まれているのみテキストファイルを選択したいと思います reu

32熱

3答えて

Pythonで接続するときのデフォルトのMysql接続タイムアウトを変更する方法はありますか？

私はPythonを使用してmysqlデータベースに接続しましたcon = _mysql.connect('localhost', 'dell-pc', '', 'test') 私が書いたプログラムは、完全実行、すなわち約10時間で多くの時間がかかります。実際には、私はコーパスから別個の単語を読み出そうとしています。読み取りが終了した後、タイムアウトエラーが発生しました。私がしたMySQLのデフ

0熱

1答えて

生のコーパスから特定の遠隔単語を取得するには？

import nltk import nltk.data nltk.corpus.brown y= nltk.corpus.brown.raw() print(y) 私はprint(y)を行うと、それは、私にこのコーパス内の生データの全てを示しが、私は、この生コーパスからのみ10,000単語を取得したいです。これをどうすれば実現できますか？

0熱

1答えて

私はPythonで作成したコーパスをどのように使用しますか？

私はコーパスを作ったabc。そして、私はpythonでそれをアップロードすることができません問題私が直面しています： 1）私はすべてのビルド前のコーパスがある場所での自己ビルドコーパスを配置する必要がありますか？もしそうなら 1.A）なぜ私は、このコマンドを使用することはできませんよ：、場所は実際には 'LOCATION'） abc = nltk.data.find('LOCATION\abc'

22熱

4答えて

Pythonのコーパスからワードクラウドを作成するには？

Creating a subset of words from a corpus in Rから、回答者はterm-document matrixを簡単にワードクラウドに変換できます。生ワードのテキストファイルまたはNLTKコーパス、またはMmcorpusをワードクラウドに変換するPythonライブラリと同様の機能はありますか？結果はやや次のようになります。

2熱

1答えて

文書用語行列の「相違点」

100の文書があるとします。70は政治、30は数学（奇妙な組み合わせ、私はそれを知っています）です。私は（ドキュメントをコーパスを作る：私の目標は、私は、文書のセット全体を考えるとき、私はこれが好きですかなど、SOM、ネットワーク分析、多次元尺度分析のようなXY throught方法でそれらを表現するためにあります）を100要素とする。私は文書用語行列（dtm）を作成します。 from dtm

-1熱

1答えて

TF-IDFおよびベクトルモデルのデータセットヘルプ

TF-IDF、ベクトルモデル、およびTF-IDFアルゴリズムの最適化を比較したいと思います。そのためには、データセットが必要です（少なくとも100文字の英語テキスト）。私は1つを見つけることができません。助言がありますか？