私は、「サービス」このような-subtrees(および他のいくつかのタイプ)ペンツリーバンクv2の木を処理し、しばしば遭遇nltkを使ってptbパーズツリーの-NONE-と* T * -iを取り除くには?
私は手動で私が実際にさらに使用するノードを洗練するためのルールの多くを追加することができます(スタンフォードパーサーが返すものと同じように、タグやトークンを解析し、「ああ、見てください」リンクや「ここにノードがある」必要はありませんが)、これらのサービスノードや巨大なギャップ「ブランチブランチ」(上記の-NONE-
ノードを削除した場合、SBAR
には子供が全くいなくなりましたが、奇妙です)。
from nltk.corpus import ptb; ptb.parsed_sents()
とすべての出力から、実際の解析(単語、タグ、句読点)以外のすべてを削除できるのだろうか?
どうすれば '-NONE-'なのでしょうか?問題は、これらのサービスノードのすべての種類がわからないことです。問題の具体的な例を提示しました –
削除の基準がすべての「-NONE」ノードと結果として空になるすべての上位ノードを削除することになっている場合は、それに応じて基準を変更する必要があります。このタグが常に高さ1で発生する場合は、かなり簡単です。葉が残っているように多くの '-NONE-'ノードを支配するサブツリーを削除してください。 – alexis
@alexisという具体的な回答をありがとう!それは非常に便利ですが、私が言及した問題は少し異なります。私は、「他のすべて」が何であるかを事前に知らなくても、自分自身を解析する以外のすべてを取り除くことができるかどうか疑問に思っていました。そこにはこれらの痕跡と共同索引があり、残ります。それは最初の非常に便利なスニペットですが、 –