text-mining

1熱

1答えて

私は、WEKAに生成されたARFFファイルに保存されている正または負に分類された短いメッセージの集合を持っています。このデータを分類と処理の目的でRapidMinerに移動したいと思います。 RapidMinerの完全な初心者であれば、誰でもこれらのメッセージの分類子を作成する方法の例があります。メッセージは次の形式のファイルになります。 "MSG 1 TEXT", categoryX "MSG

6熱

3答えて

Word Net - Wordの同義語と関連する単語の構造 - JavaまたはPython

WordNetを使用して、用語の基本セットから同様の用語のコレクションを探すことを検討しています。例えば、単語が 'を落胆' - 潜在的な同義語は次のようになります。daunted, glum, deterred, pessimistic。また、次のような潜在的なバイグラムを特定したいと考えました。 beat down, put off, caved inなど JavaまたはPythonを使用

2熱

1答えて

OpenNLPの "manifest.propertiesが見つかりません"を解決するには？

私はトークン化にOpenNLPを使用しようとしています。私は何が問題なのか分からない。以下は例外です： opennlp.tools.util.InvalidFormatException: Missing the manifest.properties! at opennlp.tools.util.model.BaseModel.validateArtifactMap(BaseMo

2熱

2答えて

データマイニングでデータをマッピングするためのアルゴリズム

いくつかのWebページをスクラップし、それらからコンテンツを抽出する必要があります。私はいくつかの特定のキーワードを選択し、いくつかの関係b/wを持っているデータをマップすることを計画しています。しかし私にはアイデアはありません。私はそれをどうやってできるのですか？誰も私にそれを行うためのいくつかのアルゴリズムを提案することができますか？例えば、私はリンゴに関するいくつかのウェブページをダウンロ

0熱

2答えて

大きなログファイルを減らすためのツール

1GB程度のログファイルを扱います。私は通常、セッションID（2分以上かかる）を検索するだけで、興味のあるセッションをカバーするファイルの一般的な領域を絞り込むことができます。その後、ユーザーセッションで発生したイベントの前後のデータを削除して、その後の検索を高速化したい（今注目している領域を絞り込んでいるため）。巨大なログファイルをGoogle Chromeで読み込み、スクロールバーのマーカ

2熱

4答えて

純粋な統計または自然言語処理エンジン？

OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンはありますか？私が探しているのは、テキストからキーワードを選び、その動詞にステミングを与えるエンジンです。&名詞、おそらく自然言語処理はここに行く方法ではありません。エンジンは異なる言語でも動作するはずです。

8熱

2答えて

RからWikipediaにアクセスするには？

ウィキペディア（おそらくMediawiki APIを使用している）にクエリを実行して、そのようなクエリに関連する利用可能な記事のリストを取得したり、テキストマイニングのために選択した記事をインポートすることができるパッケージはありますか？

1熱

2答えて

テキストマイニング - 構造化されていないテキストからのバンド名を抽出します

これは一般的で自由な質問です。私は本質的に前方への道を決める上で、そしておそらくいくつかの読書のために助けを求めています。私は、構造化されていないテキストマイニングを行い、そのテキストからバンド名（アーティスト、バンドなど）を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さい（1,2行のテキスト）。 Concert Green Day At Wembley Sta

3熱

1答えて

AntlrとNLTK with Jython

私は現在、テキストをタグ付けして解析するJavaでNLPプロジェクトを作成しています。私の主な問題は解析コンポーネントで、Antlrを使用してタグ付きテキストを解析ツリーに変換しています。 Antlrは主にNL解析ツールとして書かれていないので、多くのメモリを消費し、文法を変更するのに容易に適応できません。私はこの問題を解決するためにjython内でNLTKを使用したいと思います。これは特にこれが

23熱

5答えて

Javaでのテキスト分析/マイニング用のAPIはありますか？

Javaでテキスト解析を行うAPIがあるかどうかを知りたい。テキスト内のすべての単語、別々の単語、式などを抽出できるもの何かが数字、日付、年、名前、通貨などであるかどうかを知らせるものテキスト解析を開始しています今すぐ、私はキックオフのためのAPIが必要です。私はウェブクローラーを作ったので、ダウンロードしたデータを分析するための何かが必要になりました。ページ内の単語数、類似した単語、データ型、