2011-10-27 5 views
0

luceneのExtractWikipediaツールを使用して、最新の英語wikiページのbz2ダンプを抽出しました。結果の.txtファイルには、ウィキペディアのマークアップ言語が含まれています。ディレクトリ上の各ファイルの内容のみを解析するツールやPythonスクリプトはありますか? (つまり、コンテンツにマークアップが含まれないようにファイルを変更する)ディレクトリ内のファイルからWikipediaのマークアップを解読する

また、これを達成するためのJavaライブラリまたはパッケージがありますか?私はそれをLuceneクラスのExtractWikipediaに統合したいと考えています。

答えて

0

あなたは

  • 生成し、階層化カテゴリ
  • が発生リダイレクトを削除wikimarkup言語を削除し、それは(あなたがperlの最初をインストールする必要があります)ことを準備するperlスクリプトです。このwikiprepを試すことができます容易に解析できるXML形式

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

すべてのウィキペディアダム を実行するには数時間かかることがあり、6GBのRAMについては大容量のメモリが必要な場合があります

関連する問題