ランダムなウェブページの件名やトピックを見つけて、これをdbpediaなどのRDFデータベースのエンティティにリンクすることに興味があります。私はこれを行うためのツール/ライブラリがあるのか、誰かがこれまでにこのようなことをしようとしているのであれば疑問に思ったのですか?ウェブページの件名を探す
答えて
Webページの主題を見つけることは(同名のWikipediaのページを参照してください)Automatic Summarizationに、おそらく最も近いです。そのために使用されるサブタスクの1つはKeyphrase Extraction(KE)です。 KEは、入力テキストから、そのテキスト項目に重要な/重要な/関連する部分文字列(フレーズ)を返します。名前付きエンティティが入力テキストの主題のキーであると仮定すると、名前付きエンティティ認識(NER)が、必要なサブタスクになります。 NERは、エンティティのタイプと並んで、エンティティの名前である部分文字列を返します。
DBpediaなどのナレッジベース(KB)へのリンクについては、あなたの説明から、KEまたはNER以上のものを探しているようです。 DBpedia Spotlightというツールがまさにこれを実行します。入力テキスト内のすべてのDBpediaリソースを見つけるように、またはキーフレーズのみ、名前付きエンティティのみなどを検索するように設定することができます。そのすべてが最終的にDBpediaにリンクします。それをチェックしてください:http://spotlight.dbpedia.org
AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycherなどの他のツールがあります。私の知る限り、DBpedia Spotlightはフリーでオープンソースです(Apache V2 )、フレーズの認識と曖昧さ回避の動作を同様に設定することができます。 (免責事項:私はDBpedia Spotlightの共同制作者です)
基本的には、名前付きエンティティ認識ツールです。 Alchemy API,OpenCalais,LupediaまたはZemantaのような多くの無料の商用サービスがあります。私の同僚の中にはbloggedaboutのこれらのサービスに関する経験があります。
インターリンクする部分では、通常SilkまたはLIMESなどのフレームワークを使用します。まもなくEC FP7プロジェクトLATCでinterlinking service in the cloudが利用可能になります。免責事項:私はLATCプロジェクトコーディネーターであり、Silk/LIMESはLATCコンソーシアムメンバーの製品です。
OpenLink Virtuosoは既にOpenCalais、Alchemy、Pingar、DBPedia Spotlight用のSponger(RDFizer)メタカートリッジを使用しています。つまり、ページをフィードし、上記のサイトにエンティティを尋ねると、識別されたエンティティに基づいてトリプルが与えられます。
(免責事項:私は知っている必要があります)
- 1. ウェブページのテストテキストをお探しですか?
- 2. Pythonでファイル名の条件付きファイルを探す
- 3. Outlookの件名に単語「件名」を分割するJava
- 4. Intellij IDEAの名前でパッケージを探す
- 5. 件名。メッセージリスナーの例
- 6. システムアプリのパッケージ名とアクティビティ名を探しますか?
- 7. ASP.NET MVC3でカスタムのHtmlHelperに地域名やコントローラ名を探す
- 8. ProjectItemをファイル名で探す方法
- 9. J2MEグループ名と番号を探す
- 10. IMAP FETCH件名
- 11. ウェブページ内の文字列をファイルに保存せずに探しますか?
- 12. nvarchar(4001)?件名に
- 13. ウェブページにアップロードするファイルの名前をプログラムで設定する
- 14. MailSystem.NET件名の符号化
- 15. Log4j SmtpAppender - 件名の例外
- 16. phpmailer&件名の入力&
- 17. ウェブページのウェブサイト名とページタイトルを取得する方法
- 18. 条件を満たすn番目の要素を探しますか?
- 19. 件名でPDFテキストを抽出する
- 20. セレンドライバを使ってユーザー名フィールドの要素を探す方法
- 21. チェックされているラジオボタンの名前を探します。
- 22. ローカライズされた国、言語、地域名のソースを探す
- 23. Javaアプレットは、次の要件に合うJavaファイルアップロードアプレット(あるいはフラッシュ)を探して降下探しサーバー
- 24. ウェブページ上のすべてのURLを探し、それをurllib2で個々の変数に保存するには?
- 25. javascript関数のパラメータの命名要件
- 26. メールの件名と本文のpreg_match
- 27. 1件の結果が見つかりましたが、2件を探していました
- 28. 共通の名前を持つコンピュータ言語を探したい
- 29. 件名照会ヘルプが必要です
- 30. Eclipseでパッケージを名前で探すには?
あなたの質問は「建設的ではない」と考えられるかもしれませんが、とにかくあなたに役立つ答えがありますか?それを答えとして選択できますか? –