2011-11-12 9 views
7

これは大きな話題の一種だとわかっていますが、テキストの塊を受け入れ、そこから最も興味深いキーワードを抽出する必要があります。テキストはテレビのキャプションから来るので、テーマはニュースからスポーツ、ポップカルチャーの参考文献までさまざまです。テキストが表示される表示の種類を指定することは可能です。Haskellのテキストブロックからキーワードを抽出する方法

私は何とか面白いと私が知っている用語の辞書とテキストを一致させる考えがあります。

ハスケルのためのどのライブラリがこれを手伝ってくれますか?

私は興味深い用語の辞書とそれらを保存するデータベースを持っていると仮定して、テキスト内のキーワードを一致させるための特別なアプローチがありますか?

私は考えていない明らかなアプローチはありますか?

答えて

1

(しかし、私はhaskell固有の情報は持っていません)、リレーショナルデータベースに文書を入力し、SOLR/luceneまたはsphinxで索引付けするのはかなり簡単です。 「興味深い用語」リストのペア、トリプルなどを検索することができます

名前付きエンティティ認識、統計的に珍しいフレーズ検出、自動タグ生成、そのようなトピックをご覧ください。 Lingpipeは、これらの本はまた、開始するには良い場所です:

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

関連する問題