2013-04-17 8 views
6

私はwikidump pythonライブラリを見つけました。wikidump python libの例や目次をお探しください

私はソースコードを見ることで手に入れることができましたが、私はPythonで新しく、私が必要とするプロジェクトとしてBSコードを書いたくありません。

私は 'wiki-SPECIFICDATE-pages-articles.xml.bz2'ファイルを取得しました。これをシングル記事取得のソースとして使用する必要があります。誰か私にいくつかの文書を指し示しているか、これを正しく達成するための指針を教えてもらえますか?私は何も見つかりませんでした!

私は質問を理解し、しかし、あなたが持っているならば、ウィキペディアはダンプ場合

+1

例として使用できるhttps://github.com/saffsd/wikidump/blob/master/src/wikidump/__init__.pyでコマンドラインクライアントを見てきましたか? – MaxSem

+1

私はhttp://medialab.di.unipi.it/wiki/Wikipedia_Extractorを使ってWikipediaをプレーンテキストに変換します。それは簡単に任意の記事を取得するために変更することができます。 1つの記事の処理をデバッグするだけで、取り込むための正規表現のマッチを挿入する場所がわかります。 – Den

答えて

0

わからない(あなたが任意のより良いし、適切doc'dのlibを得た場合、PSは、私に教えてください)、あなたはwikicodeを解析する必要があり、I mwparserfromhell libを提案します。

もう一つの強力なフレームワークは、それが(したがって、それは代わりに記事を読んで、パースの、書き込みページに専用の多くのスクリプトがあります)ウィキペディア上のボットユーザーのための歴史的なフレームワークである、Pywikibotです。それは多くのドキュメントを持っていますが(時には時代遅れです)、MediaWiki APIを使用しています。

これらは両方とももちろん使用できます。記事を取得するためのPWBと解析するためのmwparserfromhellです。

関連する問題