2017-11-10 5 views
0

です。私はウィキペディア(enwiki)の英語版を具体的に話しています。私はsqlダンプ(categorylinks、page、page_prop)をダウンロードすることによってWikipediaの他のより軽いバージョンにしようとしましたが、これは簡単にはできません。現時点では、SQLファイルからデータベースにデータを書き込んでいますが、これを行うには他にも簡単な方法が必要です。これには多くの時間がかかります。実際にデータの書き込みに成功した場合、クエリはおそらく永遠に続くでしょう。だから、どのように私は英国のWikipediaから記事とそのカテゴリのリストをコンパイルできますか?ウィキペディアからの記事カテゴリの関係のリストを取得する最も簡単な方法は

+1

正しく理解していれば、ウィキペディアからページを取得したいと思います。 'アルバート・アインシュタイン'、そしてページカテゴリーなども手に入れる? Wikipedia APIを使用したいと思うかもしれません:https://en.wikipedia.org/wiki/Special:ApiSandbox#action=query&prop=categories&titles=Albert%20Einstein – neoDev

+0

ApiSandBoxを使ってみましたが、私が集めたものからApiには限界があります500レコードの、右か?記事の数は4〜5.000.000です。 – dmarkos

答えて

0

これは簡単な答えです。ダンプをダウンロードして使用することは、従来のコンピュータではあまり手近ではありません。ありがたいことに、私が使用したQuarryというサービスがあります.Wikipediaのデータベースに問い合わせてみましょう。しかし、制限があるので、上記のリストを取得するには、私はクエリをより細かく分割して、limit clauseを使用し、同じクエリに+50回を与えなければなりませんでした。このデータが必要な人は、私のquarry profileにアクセスし、Article - Categoriesのクエリからデータを取得できます。

関連する問題