wikimedia-dumps

1熱

1答えて

この質問の変種は今ここで数回尋ねられましたが、私の質問はJavaでXPATHを使うという一般的な効率の問題です。マイ・タスク：地理的な場所に関するウィキペディアの記事をとり、そこから階層的なデータ構造を作成してください。私は既にwikiページのXMLバージョンを取得し、直感的に理解できるスキーマに従って再フォーマットしました。 public class Province implements

10熱

1答えて

マルチストリームWikipediaダンプ

私はドイツ語wikipediaダンプdewiki-20151102-pages-articles-multistream.xmlをダウンロードしました。私の短い質問は、「マルチストリーム」とはどういう意味ですか？

1熱

1答えて

XMLファイルタグを読む

xmlファイルから<title>,<title_id>のようなタグ値を読みたいと思います。 <title>の値が正常に読み取られました。同じループで<title>,<title_id>を読むことはできますか？私はXMLを初めて使いました。 <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.5/" xmlns:xsi="http://

0熱

1答えて

dbpediaデータの入手先

dbpedia 2015-10のデータセット（http://wiki.dbpedia.org/Downloads2015-10）と元のウィキペディアのソースを比較したいと思います。彼らが提供したリンク（http://services-resources/datasets/dataset-2015-10/dump-dates-dbpedia-2015-10）は現時点ではアクセスできません。 Doe誰

1熱

1答えて

.readLine（）/ readLineの代わりにリストのみが返されます

私はウィキペディアからテキストを取得するために読み取り行を使用しています。しかし、読んだ行は、私が望むテキストではなく、リストを返します。私の問題を解決するために代替手段を使用する方法はありますか？ public class mediawiki { public static void main(String[] args) throws Exception { URL y