2009-08-22 12 views
1

私はウィキペディアのダンプファイルを処理する必要があるjavaでプロジェクトをやっています。私はウィキペディアの記事でキーワードを抽出するためのライブラリを探しています...基本的には、wikipedia xmlダンプのすべてのタグページを読み込み、トピックやカテゴリのリストと比較し、正しい場合はそれを選択して追加します私の結果に私はダンプを読んだり、ウィキペディアの結果を書いたりすることに興味がありません。ウィキペディアの記事のタイトルとテキストでトピックで検索できるライブラリについて知りたいだけです。たとえば...入力が"犬"私は犬に関するウィキペディアの記事を望んでおり、犬のカテゴリの下にあるページがあれば可能です。トピックで検索し、Wikipediaの記事からキーワードを抽出してください

wikipediaで汎用ライブラリが指定されていないかどうかは関係ありません。私は引数としてwikitextを入れ、カテゴリを含むキーワードのリストを受け取る必要があります... Wikipedia-MinerまたはJava Wikipedia Libraryのようにうまく動作するウィキペディアライブラリがいくつか見つかりましたが、最初にmysqlをインストールして分析したいテキストをデータベースに保存しないでください。

どんな種類の助力や提案が好評です。 :)

答えて

2

これはあなたの最善の策です。

関連する問題