2017-02-23 8 views
4

なぜpythonに付属しているフレンチトークナイザが私にとってうまくいかないのですか? 何か間違っていますか?PythonのNltkフレンチトークナイザが動作しない

私は

import nltk 
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle') 
for i in content_french: 
     print(i) 
     print(tokenizer.tokenize(i)) 

をやっているしかし、私は

John Richard Bond explique le rôle de l'astronomie. 
["John Richard Bond explique le rôle de l'astronomie."] 

答えて

6

tokenizer.tokenize()などの非トークン化された出力が文トークナイザ(スプリッター)で取得します。あなたは言葉をトークン化したい場合は、word_tokenize()を使用します。

import nltk 
from nltk.tokenize import word_tokenize 

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
for i in content_french: 
     print(i) 
     print(word_tokenize(i, language='french')) 

Reference