2011-07-12 7 views
1

これは一般的で自由な質問です。私は本質的に前方への道を決める上で、そしておそらくいくつかの読書のために助けを求めています。テキストマイニング - 構造化されていないテキストからのバンド名を抽出します

私は、構造化されていないテキストマイニングを行い、そのテキストからバンド名(アーティスト、バンドなど)を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さい(1,2行のテキスト)。

Concert Green Day At Wembley Stadium 
Extraordinary representation - Norah Jones in Poland - at the Polish Opera 

は今、私は分類器を試してみると思っていますが、テキストはそれのために任意の実際のトレーニング情報を提供するために、小さなに思える:

いくつかの例としては、(本物ではないイベント)であってもよいです。 おそらく、この種の問題(またはおそらくアルゴリズムはありません)のために良い結果をもたらすかもしれないいくつかの他のテキストマイニングテクニック、ヒューリスティックまたはアルゴリズムがあります。

+1

あなたはそうだったのですが、この質問はおそらくあまりにも無防備なのです。私は、あなたがこの分野の実践と挑戦に関してより正確なアイデアを提供するために、「名前付きエンティティ認識/抽出」、「NER」などのキーワードを使用して、SOとWeb全体を検索することをお勧めします。重複ではありませんが、このSOの質問:http://stackoverflow.com/questions/1643616/algorithms-to-detect-phrases-and-keywords-from-textは開始するのに適しているかもしれません。 – mjv

+0

私はこれをまっすぐにしましょう:あなたが探しているバンドのリストを持っていますか、あるいは一般的にバンド名を探していますか? –

答えて

1

データの構造上、事前に訓練されたモデルのパフォーマンスが低下する可能性があります。また、一般組織,ロケーションカテゴリはおそらくあなたにとって役に立たないでしょう。

私はテキスト自体が小さすぎるとは思わない、ほとんどのNERシステムは一度に1つの文章で動作する。 http://nlp.stanford.edu/ner/index.shtml

トレーニングセットを作成したくない場合は、すべてのバンド/アーティストの辞書が必要です。NERライブラリを使用して独自のトレーニングセットを提供すると、おそらくうまくいくでしょう。それからあなたは明らかに未知のバンド/アーティストを見つけることができません。

+0

私は試したことがありませんが、首都のためにNERタガーが「コンサート・グリーン・デイ・アット・ウェンブリー・スタジアム」のような文章で問題に遭うかもしれないと思われます。しかし、そうした場合、その出力は分類器(またはウィキペディアから抽出されたバンドの単純なリスト)に供給することができます。 –

+0

はい、私もそうだと思います。しかし、彼らが存在するような大文字のカスタムデータセットで訓練されているのではない。 – Rasmus

0

タスクを少し簡略化できる単純なNERアルゴリズムがあります。 名前付きエンティティ(またはそうでないかもしれない)のエンティティを検索し、GoogleまたはYahoo(API経由)でそれらを2回検索します。正確なフレーズ(つまり、引用符で囲む)。結果の数を分割します。単語が名前付きエンティティを形成するかどうかを決定するしきい値(< 30)があります。

関連する問題