1
非常に長いテキストがあり、特定の単語の周りに特定の長さの文脈を抽出したいとします。たとえば、次のテキストでは、戦士という言葉の周りに8語を抽出したいと思います。文中の単語を囲む文脈を抽出する
........
........
は...死にました。彼は...オッズに対する自由のために戦って、この場合、
........
........
非常に勇敢な戦士ました結果は
彼は自由のために戦って、非常に勇敢な戦士 だっただろう
fight for freedom
はのためにちょうどより意味があるので、私は完全な文の初めから始めることを好むと言いました。
このフィールドで実行できるアルゴリズムや研究はありますか?私はこの問題にどのように近づくべきですか?
のに役立ちますリンクに示されているように、parsey mcparsefaceはnltkより少し良くなる傾向があります – thang