corpus

    9

    2答えて

    Rのtmパッケージを使用して、各行がフィードバックの異なるインスタンスであるという顧客からのフィードバックのCSVファイルを取得しようとしています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいが、DocTerms Matrixのフィードバックを比較できるように、各行をコーパス内の別のドキュメントにしたい。私のデータセットには10​​,000以上の行があります。 もともと私は次

    15

    1答えて

    にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる:定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

    5

    1答えて

    私はNLTKパッケージをPythonで使って学びたいと思っています。特に、NLTKでpenn tree bankデータセットを使用する必要があります。私が知る限り、nltk.download('treebank')と呼ぶと、私はデータセットの5%を得ることができます。しかし、私はtar.gzファイルに完全なデータセットを持っており、それを使いたいと思います。あなたはペンツリーバンクのフルインストー

    0

    3答えて

    私はテキスト解析を行うためにRとtmパッケージを使用しています。 私は、特定の式が個々のテキストファイルの内容内にあるかどうかに基づいて、コーパスのサブセットを構築しようとしています。 私は20個のテキストファイル(この例ではあなたにlukeAに感謝)とコーパス作成します。私は今、サブセット・コーパスを作成するには、文字列「低価格化」が含まれているのみテキストファイルを選択したいと思います reu

    32

    3答えて

    私はPythonを使用してmysqlデータベースに接続しましたcon = _mysql.connect('localhost', 'dell-pc', '', 'test') 私が書いたプログラムは、完全実行、すなわち約10時間で多くの時間がかかります。実際には、私はコーパスから別個の単語を読み出そうとしています。 読み取りが終了した後、タイムアウトエラーが発生しました。 私がしたMySQLのデフ

    0

    1答えて

    import nltk import nltk.data nltk.corpus.brown y= nltk.corpus.brown.raw() print(y) 私はprint(y)を行うと、それは、私にこのコーパス内の生データの全てを示し が、私は、この生コーパスからのみ10,000単語を取得したいです。 これをどうすれば実現できますか?

    0

    1答えて

    私はコーパスを作ったabc。そして、私はpythonでそれをアップロードすることができません 問題私が直面しています: 1)私はすべてのビルド前のコーパスがある場所での自己ビルドコーパスを配置する必要がありますか?もしそうなら 1.A)なぜ私は、このコマンドを使用することはできませんよ:、場所は実際には 'LOCATION') abc = nltk.data.find('LOCATION\abc'

    22

    4答えて

    Creating a subset of words from a corpus in Rから、回答者はterm-document matrixを簡単にワードクラウドに変換できます。 生ワードのテキストファイルまたはNLTKコーパス、または​​Mmcorpusをワードクラウドに変換するPythonライブラリと同様の機能はありますか? 結果はやや次のようになります。

    2

    1答えて

    100の文書があるとします。70は政治、30は数学(奇妙な組み合わせ、私はそれを知っています)です。 私は(ドキュメントをコーパスを作る:私の目標は、私は、文書のセット全体を考えるとき、私はこれが好きですかなど、SOM、ネットワーク分析、多次元尺度分析のようなXY throught方法でそれらを表現するためにあります)を100要素とする。 私は文書用語行列(dtm)を作成します。 from dtm

    -1

    1答えて

    TF-IDF、ベクトルモデル、およびTF-IDFアルゴリズムの最適化を比較したいと思います。 そのためには、データセットが必要です(少なくとも100文字の英語テキスト)。私は1つを見つけることができません。助言がありますか ?