2016-10-09 6 views
0

で文字列をトークン化するためにどのように私は、文字列をトークン化したい、と以下のコードを使用:は、Python 3.5.2

print(raw) 
tokens = nltk.word_tokenize(raw) 
tokens 

は「生の」HTMLファイルから抽出されたテキストです。私は '生の'印刷されているが、最後の2つの行は動作しませんでした。私はnltk 3.2.1とPython 3.5.2を持っています。 nltkの作成者がnltkがまだPython 3のバージョンアップ中であったと思います。

Python 3.5.2環境で文字列をトークン化する方法はありますか? BeautifulSoupや他のパッケージはそれをしますか?

+1

最後の2行が「機能しませんでした」と言われると、より具体的になりますか?具体的には、正確に何が入力されたか、あなたが期待した出力は何ですか?実際に何を得ましたか? –

+0

私の入力が '第1章、例外的に暑い夕方に...'という文字列の場合、最後の行の出力は次のようになります['Chapter'、 'I'、 'on'、 'an' '例外的に'、...]。しかし、現在は何も表示されていませんが、コードがスキップされただけで表示されます。 – dwill

+0

@Jon Ericsonそして私はエラーメッセージを受け取っていませんでした。 – dwill

答えて

0

最後の行コードについては、トークン 私は本の例に従っていました。ジュリアスの提案に従った後、簡単に

print(tokens) 

となりました。ですから、ntlk 3.2は実際にはPython 3.5で動作します。すばらしい。

+1

これはnltkとは関係がないことに注意してください。あなたの問題は、インタラクティブなプロンプトに変数名を書くことでそれが表示されるということでしたが、スクリプトを実行する場合はそうではありません。 – alexis

+0

@alexis明確化のために感謝します。私はスクリプトとして実行していた。 – dwill

+0

はい、それは明らかでした。コピーした例は、対話セッション用です。 – alexis