Wikipediaのページを抽出してインポートするには？

私は検索エンジンを構築しており、それをうまくテストするために、より多くの記事が必要です。それらのベストソースはWikipediaです。Wikipediaのページを抽出してインポートするには？

いくつかのダンプを検索しましたが、いくつかはXML（インポートに問題があります）、一部にはコンテンツがありません。

したがって、ダンプを取得するには、好ましくはMySQLフォームを使用します。それは英語以外の言語でなければなりません。

2011-01-22 flakerimi

コンテンツのフォーマットの例を教えてください。 – Eray

ウィキペディアのSQLダンプを持っていたら、ウィキペディアのクローンを持っていれば、記事のように見えるものを得るにはwikiソフトウェアが必要です。利用可能なAPIがあります.APIまたは利用可能な多くの構造化データオプションのいずれかからインポートすることを強くお勧めします。 – mirzu

Err ...あなたはWikipediaのコピーをホストするためのリソースがあることは確かですか？あなたがそうしたとしても、それをどのように更新する予定ですか？ – thkala

Hereは、WikipediaをSolrにインポートする方法を説明するページです。

Hereは、WikipediaのダンプをMysqlにロードしてローカルクローンを実行する手順を段階的に説明したものです。

2011-01-22 23:12:56 bmargulies

10億に感謝します。建設的な答えのためには+1 – flakerimi

+1。 OPはちょうどいくつかのテストデータ、完全に有効なものを必要とします –

私はそこに行ってきました、それを行い、それはレシピなしでは簡単ではないことを知っています。 – bmargulies

答えて