私は完全にWikipediaをダウンロードできることを知っています。しかしカテゴリ別にダウンロードする方法があるのだろうか?彼らはSpecial Exportページを持っていますが、カテゴリー(例えばカルチャー)を書くことは、子ページと別のカテゴリーのカテゴリーを追加するので、カルチャーのすべてのページを取得しようとすると、永遠にかかるでしょう。アップ。カテゴリ別にエクスポートする方法は他にもありますか? (簡単な方法で)カテゴリオプションでWikipediaをエクスポートしますか?
答えて
私はそれを行うための他の簡単な方法はないと思います。
ダンプファイルをすべての記事(pages-articles
、現在は英語のWikipediaでは7.5GB)にダウンロードし、カテゴリ別メンバーダンプ(categorylinks
、1 GB)を使用してカテゴリ別にフィルタリングすることをお勧めします。
別のオプションは、[特殊:エクスポート]を手動で実行するのと同じことですが、the APIを使用して自動化します。
MediaWiki APIを使用して、あなたはこのように、prop=revisions
クエリのgeneratorとしてlist=categorymembers
を使用することにより、カテゴリ内のすべてのページのウィキテキストを取得することができます:
は、この例でリンクができますウィキペディアの最初の10項目の内容はCategory:Cultureです。 gcmlimit=max
パラメータを追加してページを増やすことはできますが、大きなカテゴリの場合はquery continuationsを正しく処理する必要があります(または、MediaWiki API clientを使用してください)。
(ただし、このクエリはのサブカテゴリカテゴリーの内のページを表示しません:文化あなたも、それらをしたい場合は、あなたがすることなく、簡単なcategorymembers
クエリを使用して、カテゴリ内のページとサブカテゴリのリストを取得することができます。 cmnamespace
これを実行すると、カテゴリループに巻き込まれないように注意してください。ページをエクスポートする前に、結果を完全にチェックすることをお勧めします。—非常に簡単です道順は、完全なサブカートトラバーサルよりも多くのページを取得します。)
Wikipediaのページ、カテゴリ、カテゴリのリンクをダウンロードしました。私は今、それらをすべてデータベースに持っています。 :) – Andrew
- 1. エクスポートされたWikipediaの記事からインター言語リンクを取得していますか?
- 2. シェルプログラミングで「エクスポート」は何をしますか?
- 3. 「バンク」とは何を意味していますか? Wikipediaの
- 4. 記事からwikipediaの説明を取得します
- 5. wikipediaからpdfファイルをダウンロード
- 6. TFSからチェンジセットをエクスポートしますか?
- 7. Firebug Netタブのエクスポートをエクスポートしますか?
- 8. Wikipedia APIからデータを取得する
- 9. ツールボックスからドラッグ&ドロップコードをエクスポートします
- 10. DataTableをExcelにエクスポートしますか?
- 11. JasperReportをPDF OutputStreamにエクスポートしますか?
- 12. Wikipediaはどの言語でプログラムされていますか?
- 13. PHPクローラがwikipediaで動作しない
- 14. as3 pdfとしてエクスポートしますか?
- 15. Wikipediaを無視するmwlibでリダイレクト
- 16. 選択したWikipediaの記事を自分のwikiにコピーしますか?
- 17. wikipedia servers gzipコンテンツ
- 18. Wikipedia content parsing JSON
- 19. Python用Wikipedia API
- 20. wikitools、wikipedia、python
- 21. Wikipedia API infobox
- 22. サブカテゴリーwikipediaページ
- 23. マルチストリームWikipediaダンプ
- 24. XMLで記事を投稿できるwikipedia apiを探しています
- 25. Wikipedia:リンクはいつ追加されましたか?
- 26. dllから関数をインポートしてエクスポートできますか?
- 27. Sqoopエクスポートで新しいテーブルを作成できますか?
- 28. Drupalでオープンリーフマップをイメージとしてエクスポートできますか?
- 29. WebClientがwikipediaを開くことを禁止していますか?
- 30. wikipedia apiを使用中にエラーが発生しました
このPHPスクリプトを試してみたいです:https://github.com/produnis/myscripts/blob/master/PHP/mwc2pdf.php – Produnis