5

私は100から4000語の範囲のテキストをたくさん持っています。テキストは、句読点や文法で書かれた作品としてフォーマットされています。すべてが英語です。テキストからWikiDataエンティティを効率的に抽出します。

問題は簡単です:どのように特定のテキストからすべてのWikiDataエンティティを抽出するのですか?

エンティティは、すべての名詞として定義されます。すなわち、これまでのところ、私は次のことを試してみた人、組織、場所や椅子のようなものの名前、ジャガイモなど

  1. OpenNLPとテキスト、および使用のトークン化場所組織と定期名詞を抽出するpre-trained models
  2. 適用可能であれば、Porter Stemmingを適用してください。
  3. 抽出されたすべての名詞をwmflabs-APIと照合して、潜在的なWikiData IDを取得します。

このとなりますが、うまくいくと思います。 WikiDataの関連する部分をローカルにキャッシュすることは明らかな改善の1つです。しかし、私がそれをする前に、私は他の解決策があるかどうかチェックしたい。

提案?私は仕事のためSparkを使用していますので、

は、私は質問のScalaのタグ付き。

答えて

2

ヒント:

  • は、それはあなたのコーパスに比較してどのよう
  • 私はあなたがかもしれない疑いがある私は、ほとんどのエンティティ名の語幹の値に疑問
  • 見にOpenNLPと比較してスタンフォードNERを考えますタスクを別々の段階に分割して情報を失うことになる
  • Wikidataは新しいですが、タスクはそうではありませんので、Freebase | DBpedia | Wikipediaエンティティの認識|曖昧さ回避の論文をご覧ください。

特に、DBpedia Spotlightは、このタスクのために設計された1つのシステムです。ステミング

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdfhttp://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf

+0

実際だけ過半数されていない、非適切で複数として同定名詞で行われます。 dbpediaスポットライトを指摘してくれてありがとう。私はこれらについて知らなかった。 – habitats

+1

DBpediaのは、実際に(何らかの理由で、私はあることを逃した)、ウィキデータにリンクされているので、私は受け入れられたとして、私はDBpediaのIDを取得するためにDBpediaのスポットライトを使用することができたことから、あなたの答えをマークし、ウィキデータIDのを取得するためにSPARQL + RDFを使用します直接。 – habitats

関連する問題