私は検索エンジンを構築しており、それをうまくテストするために、より多くの記事が必要です。それらのベストソースはWikipediaです。Wikipediaのページを抽出してインポートするには?
いくつかのダンプを検索しましたが、いくつかはXML(インポートに問題があります)、一部にはコンテンツがありません。
したがって、ダンプを取得するには、好ましくはMySQLフォームを使用します。それは英語以外の言語でなければなりません。
私は検索エンジンを構築しており、それをうまくテストするために、より多くの記事が必要です。それらのベストソースはWikipediaです。Wikipediaのページを抽出してインポートするには?
いくつかのダンプを検索しましたが、いくつかはXML(インポートに問題があります)、一部にはコンテンツがありません。
したがって、ダンプを取得するには、好ましくはMySQLフォームを使用します。それは英語以外の言語でなければなりません。
Hereは、WikipediaをSolrにインポートする方法を説明するページです。
Hereは、WikipediaのダンプをMysqlにロードしてローカルクローンを実行する手順を段階的に説明したものです。
10億に感謝します。建設的な答えのためには+1 – flakerimi
+1。 OPはちょうどいくつかのテストデータ、完全に有効なものを必要とします –
私はそこに行ってきました、それを行い、それはレシピなしでは簡単ではないことを知っています。 – bmargulies
コンテンツのフォーマットの例を教えてください。 – Eray
ウィキペディアのSQLダンプを持っていたら、ウィキペディアのクローンを持っていれば、記事のように見えるものを得るにはwikiソフトウェアが必要です。利用可能なAPIがあります.APIまたは利用可能な多くの構造化データオプションのいずれかからインポートすることを強くお勧めします。 – mirzu
Err ...あなたはWikipediaのコピーをホストするためのリソースがあることは確かですか?あなたがそうしたとしても、それをどのように更新する予定ですか? – thkala