text-mining

    1

    1答えて

    私は、WEKAに生成されたARFFファイルに保存されている正または負に分類された短いメッセージの集合を持っています。このデータを分類と処理の目的でRapidMinerに移動したいと思います。 RapidMinerの完全な初心者であれば、誰でもこれらのメッセージの分類子を作成する方法の例があります。メッセージは次の形式のファイルになります。 "MSG 1 TEXT", categoryX "MSG

    6

    3答えて

    WordNetを使用して、用語の基本セットから同様の用語のコレクションを探すことを検討しています。 例えば、単語が 'を落胆' - 潜在的な同義語は次のようになります。daunted, glum, deterred, pessimistic。 また、次のような潜在的なバイグラムを特定したいと考えました。 beat down, put off, caved inなど JavaまたはPythonを使用

    2

    1答えて

    私はトークン化にOpenNLPを使用しようとしています。私は何が問題なのか分からない。以下は例外です: opennlp.tools.util.InvalidFormatException: Missing the manifest.properties! at opennlp.tools.util.model.BaseModel.validateArtifactMap(BaseMo

    2

    2答えて

    いくつかのWebページをスクラップし、それらからコンテンツを抽出する必要があります。私はいくつかの特定のキーワードを選択し、いくつかの関係b/wを持っているデータをマップすることを計画しています。しかし私にはアイデアはありません。私はそれをどうやってできるのですか?誰も私にそれを行うためのいくつかのアルゴリズムを提案することができますか? 例えば、私はリンゴに関するいくつかのウェブページをダウンロ

    0

    2答えて

    1GB程度のログファイルを扱います。 私は通常、セッションID(2分以上かかる)を検索するだけで、興味のあるセッションをカバーするファイルの一般的な領域を絞り込むことができます。その後、ユーザーセッションで発生したイベントの前後のデータを削除して、その後の検索を高速化したい(今注目している領域を絞り込んでいるため)。 巨大なログファイルをGoogle Chromeで読み込み、スクロールバーのマーカ

    2

    4答えて

    OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンはありますか?私が探しているのは、テキストからキーワードを選び、その動詞にステミングを与えるエンジンです。&名詞、おそらく自然言語処理はここに行く方法ではありません。エンジンは異なる言語でも動作するはずです。

    8

    2答えて

    ウィキペディア(おそらくMediawiki APIを使用している)にクエリを実行して、そのようなクエリに関連する利用可能な記事のリストを取得したり、テキストマイニングのために選択した記事をインポートすることができるパッケージはありますか?

    1

    2答えて

    これは一般的で自由な質問です。私は本質的に前方への道を決める上で、そしておそらくいくつかの読書のために助けを求めています。 私は、構造化されていないテキストマイニングを行い、そのテキストからバンド名(アーティスト、バンドなど)を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さい(1,2行のテキスト)。 Concert Green Day At Wembley Sta

    3

    1答えて

    私は現在、テキストをタグ付けして解析するJavaでNLPプロジェクトを作成しています。私の主な問題は解析コンポーネントで、Antlrを使用してタグ付きテキストを解析ツリーに変換しています。 Antlrは主にNL解析ツールとして書かれていないので、多くのメモリを消費し、文法を変更するのに容易に適応できません。私はこの問題を解決するためにjython内でNLTKを使用したいと思います。これは特にこれが

    23

    5答えて

    Javaでテキスト解析を行うAPIがあるかどうかを知りたい。テキスト内のすべての単語、別々の単語、式などを抽出できるもの何かが数字、日付、年、名前、通貨などであるかどうかを知らせるもの テキスト解析を開始しています今すぐ、私はキックオフのためのAPIが必要です。私はウェブクローラーを作ったので、ダウンロードしたデータを分析するための何かが必要になりました。ページ内の単語数、類似した単語、データ型、