ディレクトリ内のファイルからWikipediaのマークアップを解読する

luceneのExtractWikipediaツールを使用して、最新の英語wikiページのbz2ダンプを抽出しました。結果の.txtファイルには、ウィキペディアのマークアップ言語が含まれています。ディレクトリ上の各ファイルの内容のみを解析するツールやPythonスクリプトはありますか？（つまり、コンテンツにマークアップが含まれないようにファイルを変更する）ディレクトリ内のファイルからWikipediaのマークアップを解読する

また、これを達成するためのJavaライブラリまたはパッケージがありますか？私はそれをLuceneクラスのExtractWikipediaに統合したいと考えています。

出典

2011-10-27 Dan Q