で文字列をトークン化するためにどのように私は、文字列をトークン化したい、と以下のコードを使用:は、Python 3.5.2
print(raw)
tokens = nltk.word_tokenize(raw)
tokens
は「生の」HTMLファイルから抽出されたテキストです。私は '生の'印刷されているが、最後の2つの行は動作しませんでした。私はnltk 3.2.1とPython 3.5.2を持っています。 nltkの作成者がnltkがまだPython 3のバージョンアップ中であったと思います。
Python 3.5.2環境で文字列をトークン化する方法はありますか? BeautifulSoupや他のパッケージはそれをしますか?
最後の2行が「機能しませんでした」と言われると、より具体的になりますか?具体的には、正確に何が入力されたか、あなたが期待した出力は何ですか?実際に何を得ましたか? –
私の入力が '第1章、例外的に暑い夕方に...'という文字列の場合、最後の行の出力は次のようになります['Chapter'、 'I'、 'on'、 'an' '例外的に'、...]。しかし、現在は何も表示されていませんが、コードがスキップされただけで表示されます。 – dwill
@Jon Ericsonそして私はエラーメッセージを受け取っていませんでした。 – dwill