2017-03-13 14 views
3

トークン化コードがかなり複雑であることがわかりましたが、コード内のどこに文が分割されているのかわかりませんでした。spaCyトークナイザはどのように文を分割しますか?

例えば、どのようにトークナイザが

Mr. Smitt stayed at home. He was tired

は「ミスター」に分割すべきではないことを知っているん"彼"の前に分割する必要があります。そして、コードのどこで "彼"が起こる前に分割が行われますか?

(私は右の場所で探していた場合に実際に、私はわからない実際にわからない午前:私はtokenizer.pyxsentsを検索する場合、私は任意の発生を見つけることができません)

+0

これは読んでいますか? https://spacy.io/docs/usage/customizing-tokenizer#how-tokenizer-works –

答えて

0

あなたはdocオブジェクトを経由して分割にアクセスし、発電機の場合:

doc.sents 

発電機の出力は一連のスパンです。

分割がどのように選択されるかに関しては、ドキュメントは依存関係のために解析されます。パーサーを理解することは自明ではありません。理解したいのであれば、それを読む必要があります。それは、ニューラルネットワークを使用して依存ツリーを構築する方法を決定することです。分割は依存関係によらないトークン間のギャップです。これは単純にフルストッパを見つける場所ではなく、その結果としてメソッドがより堅牢になります。

関連する問題