0
名前付きエンティティ認識/分類を実行し、IOBタグ付き形式で出力を生成する必要があります。NLTK - チャンクされたツリーをリストに変換する(IOBタグ付け)
私はNLTK-train libraryによって配信されるNLTKチャンクを使用していますが、IOBタグのリストではなくツリーを生成します。
def chunk_iob(list_of_words):
nltk_tagger = nltk.data.load("taggers/conll2002_aubt.pickle")
nltk_chunker = nltk.data.load("chunkers/conll2002_NaiveBayes.pickle")
t = nltk_tagger.tag(list_of_words)
print(t)
c = nltk_chunker.parse(t)
print(c)
、我々は次のように、ツリーとしてCを得る:
(S
(LOC Barcelona/NC)
(PER Juan/NC :/Fd)
...
しかし、私はのようなものを探しています:IOBです
Barcelona - LOC
Juan - PER
...
list_of_wordsパラメータのタグ付きリストをlist_of_wordsと同じ順序で並べ替えます。
ツリーからタグ付きリストを取得するにはどうすればよいですか?
彼らは2.7に相当するピクルスを持っていますか?あなたのスクリプトを実行する際にエラーが発生しました –
'NLTK-trainer'は' NLTK'ではありませんので注意してください; P – alvas
@bogsあなたはIOBが何であるかを明確にしているようです。シンプルな仮面ライダー用語では、単純な例でチャンクの内側または外側のチャンクの始まりを意味するものです...私は私が知っていると信じていると信じています。Chinking and Chunking ..多くのありがとうCheers raky https://stackoverflow.com/questions/1598940/in-natural-言語処理、チャンクの目的とは何か – raky