2012-02-16 5 views
2

ランダムなウェブページの件名やトピックを見つけて、これをdbpediaなどのRDFデータベースのエンティティにリンクすることに興味があります。私はこれを行うためのツール/ライブラリがあるのか​​、誰かがこれまでにこのようなことをしようとしているのであれば疑問に思ったのですか?ウェブページの件名を探す

+0

あなたの質問は「建設的ではない」と考えられるかもしれませんが、とにかくあなたに役立つ答えがありますか?それを答えとして選択できますか? –

答えて

1

Webページの主題を見つけることは(同名のWikipediaのページを参照してください)Automatic Summarizationに、おそらく最も近いです。そのために使用されるサブタスクの1つはKeyphrase Extraction(KE)です。 KEは、入力テキストから、そのテキスト項目に重要な/重要な/関連する部分文字列(フレーズ)を返します。名前付きエンティティが入力テキストの主題のキーであると仮定すると、名前付きエンティティ認識(NER)が、必要なサブタスクになります。 NERは、エンティティのタイプと並んで、エンティティの名前である部分文字列を返します。

DBpediaなどのナレッジベース(KB)へのリンクについては、あなたの説明から、KEまたはNER以上のものを探しているようです。 DBpedia Spotlightというツールがまさにこれを実行します。入力テキスト内のすべてのDBpediaリソースを見つけるように、またはキーフレーズのみ、名前付きエンティティのみなどを検索するように設定することができます。そのすべてが最終的にDBpediaにリンクします。それをチェックしてください:http://spotlight.dbpedia.org

AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycherなどの他のツールがあります。私の知る限り、DBpedia Spotlightはフリーでオープンソースです(Apache V2 )、フレーズの認識と曖昧さ回避の動作を同様に設定することができます。 (免責事項:私はDBpedia Spotlightの共同制作者です)

1

基本的には、名前付きエンティティ認識ツールです。 Alchemy API,OpenCalais,LupediaまたはZemantaのような多くの無料の商用サービスがあります。私の同僚の中にはbloggedaboutのこれらのサービスに関する経験があります。

インターリンクする部分では、通常SilkまたはLIMESなどのフレームワークを使用します。まもなくEC FP7プロジェクトLATCでinterlinking service in the cloudが利用可能になります。免責事項:私はLATCプロジェクトコーディネーターであり、Silk/LIMESはLATCコンソーシアムメンバーの製品です。

1

OpenLink Virtuosoは既にOpenCalais、Alchemy、Pingar、DBPedia Spotlight用のSponger(RDFizer)メタカートリッジを使用しています。つまり、ページをフィードし、上記のサイトにエンティティを尋ねると、識別されたエンティティに基づいてトリプルが与えられます。

(免責事項:私は知っている必要があります)

関連する問題