2011-02-06 11 views
0

Wikipediaのページエントリーのテンプレートタイプを調べる必要があります。これまでは、クエリの結果をWikipediaに解析することに頼ってきました。Wikipediaエントリーのテンプレートタイプを取得する方法

たとえば、私が Joel Spolskyを検索した場合、正規表現「infobox」と一致させて、このページがInfobox Personを参照していることがわかります。

しかし、問題はウィキペディアのテンプレートタイプに一貫した命名体系がなく、テンプレートの名前に 'infobox'が使われないことが多いことです。

たとえば、Pittsburgh Steelersを検索すると、結果からNFL teamテンプレートを抽出する方法を確実に見つけることができません。

誰でもWikipediaページのテンプレートタイプを照会する方法は知っていますか?ありがとう:)

+1

AFAIKのように、「ウィキペディアページのテンプレートタイプ」というものはありません。ページには、多くの独立した無関係なテンプレートが含まれています。 –

答えて

1

最も簡単な方法はテンプレートの代わりにページのカテゴリを見ることです。例えば、ジョエル・スピルスキーには「生活者」というカテゴリーがあり、ピッツバーグ・スティーラーズには「ナショナル・フットボールリーグ・チーム」というカテゴリーがあります。

+0

可能であれば、私はその解決方法を避けたいと考えていました。単純な理由から、Wikipediaのカテゴリはしばしば維持管理されていません。例として、[N.J.のような] NHLチームのページを考えてみましょう。 Devils](http://en.wikipedia.org/wiki/New_Jersey_Devils) - このページには「Atlantic Division(NHL)」のカテゴリがありますが、「National Hockey League Team」タイプのカテゴリはありません。私の論理は、すべてのNHLチームのテンプレートが少なくとも一貫しているということでした。私はちょうどそれを回避するだろう。あなたの提案をありがとう。 –

+1

実際、テンプレートが一貫していると仮定することは良い考えではありません。たとえば、Infobox Officeholderをすべて使用すべきであるにもかかわらず、政治情報サイトを見ると、さまざまなものがあります。実際、Infobox Officeholderは、同じことをする他の多くのテンプレートのプレースホルダテンプレートです。 –

0

DBpediaが役に立ちます。 DBpediaはWikipediaの構造化データを取得し、ダウンロードして公開してアクセス可能なデータベースに格納します。例えば、http://dbpedia.org/sparqlで次のクエリを試してください:

select distinct ?t where { 
    ?t a <http://dbpedia.org/ontology/AmericanFootballTeam> . 
} 

それは、RDF形式で、DBpediaのに知られているすべてのアメリカンフットボールチームを返します。現在ほとんどの言語にはRDF APIがありますので、必要なデータを取得するのは比較的簡単です。

関連する問題