処理中wikipediaダンプファイル

wikipediaダンプファイルを処理したい。他の意味では、私は各記事のタイトル、カテゴリ、テキストの内容を抽出したい。私はそれについて、私はそれを行うのを助けることができる任意のJava API /ツールです質問したい。ありがとうございました処理中wikipediaダンプファイル

ウィキペディアのダンプファイルはXML形式です。したがって、この目的に使用できるXMLツールを使用できます。

ダンプファイルのサイズのため、DOMパーサがメモリ表現に全体をロードしようとするため、SAXパーサーはDOMパーサーよりもはるかに効率的です。

2012-02-15 20:10:10

このようなものをお探しですか？

ページには、APIを操作する方法の例を示しています。

2012-02-15 20:11:28

これもSAXを使用しています。 – ingyhere

をご覧ください。ウィキペディアダンプに構造化されたアクセスを提供するjava apiです。データベース（mysqlなど）が必要です。最近のウィキペディアダンプでは、少なくとも4g以上のRAMが必要です。

しかし、使いやすい：あなたはすべてのページやページのタイトルとより多くのものを使いやすくイテレータを得ることができます。

2012-07-31 12:56:35 samy

答えて