2016-08-13 13 views
1

非常に長いテキストがあり、特定の単語の周りに特定の長さの文脈を抽出したいとします。たとえば、次のテキストでは、戦士という言葉の周りに8語を抽出したいと思います。文中の単語を囲む文脈を抽出する

........

........

は...死にました。彼は...オッズに対する自由のために戦って、この場合、

........

........

非常に勇敢な戦士ました結果は

彼は自由のために戦って、非常に勇敢な戦士 だっただろう

fight for freedomはのためにちょうどより意味があるので、私は完全な文の初めから始めることを好むと言いました。

このフィールドで実行できるアルゴリズムや研究はありますか?私はこの問題にどのように近づくべきですか?

答えて

0
  1. RegExを使用すると、探している単語を含む完全な文章を取得できます。
  2. 情報抽出アルゴリズムを使用して、より便利な8語を探します。

私は正規表現のために、両方の

のいくつかのPythonの実現がhere

を見て発見し、アルゴリズムルックhere

希望を抽出するために、これは物事の種類のことに注意してください、あなた

+0

のに役立ちますリンクに示されているように、parsey mcparsefaceはnltkより少し良くなる傾向があります – thang

関連する問題