2011-01-22 11 views
0

私は検索エンジンを構築しており、それをうまくテストするために、より多くの記事が必要です。それらのベストソースはWikipediaです。Wikipediaのページを抽出してインポートするには?

いくつかのダンプを検索しましたが、いくつかはXML(インポートに問題があります)、一部にはコンテンツがありません。

したがって、ダンプを取得するには、好ましくはMySQLフォームを使用します。それは英語以外の言語でなければなりません。

+0

コンテンツのフォーマットの例を教えてください。 – Eray

+0

ウィキペディアのSQLダンプを持っていたら、ウィキペディアのクローンを持っていれば、記事のように見えるものを得るにはwikiソフトウェアが必要です。利用可能なAPIがあります.APIまたは利用可能な多くの構造化データオプションのいずれかからインポートすることを強くお勧めします。 – mirzu

+0

Err ...あなたはWikipediaのコピーをホストするためのリソースがあることは確かですか?あなたがそうしたとしても、それをどのように更新する予定ですか? – thkala

答えて

3

Hereは、WikipediaをSolrにインポートする方法を説明するページです。

Hereは、WikipediaのダンプをMysqlにロードしてローカルクローンを実行する手順を段階的に説明したものです。

+0

10億に感謝します。建設的な答えのためには+1 – flakerimi

+1

+1。 OPはちょうどいくつかのテストデータ、完全に有効なものを必要とします –

+0

私はそこに行ってきました、それを行い、それはレシピなしでは簡単ではないことを知っています。 – bmargulies

関連する問題