2012-02-15 14 views
4

wikipediaダンプファイルを処理したい。他の意味では、私は各記事のタイトル、カテゴリ、テキストの内容を抽出したい。私はそれについて、私はそれを行うのを助けることができる任意のJava API /ツールです質問したい。 ありがとうございました処理中wikipediaダンプファイル

答えて

8

ウィキペディアのダンプファイルはXML形式です。したがって、この目的に使用できるXMLツールを使用できます。

ダンプファイルのサイズのため、DOMパーサがメモリ表現に全体をロードしようとするため、SAXパーサーはDOMパーサーよりもはるかに効率的です。

3

をご覧ください。ウィキペディアダンプに構造化されたアクセスを提供するjava apiです。データベース(mysqlなど)が必要です。最近のウィキペディアダンプでは、少なくとも4g以上のRAMが必要です。

しかし、使いやすい: あなたはすべてのページやページのタイトルとより多くのものを使いやすくイテレータを得ることができます。