アンNLTKのCategorizedPlaintextCorpusReader
オブジェクトがpandas
ためdtype
ではありません。
import pandas as pd
from nltk.corpus import movie_reviews as mr
reviews = []
for fileid in mr.fileids():
tag, filename = fileid.split('/')
reviews.append((filename, tag, mr.raw(fileid)))
df = pd.DataFrame(reviews, columns=['filename', 'tag', 'text'])
[外]:言われて、あなたはタプルのリストに映画のレビューを変換してからのようなデータフレームを取り込むことができ
>>> df.head()
filename tag text
0 cv000_29416.txt neg plot : two teen couples go to a church party ,...
1 cv001_19502.txt neg the happy bastard's quick movie review \ndamn ...
2 cv002_17424.txt neg it is movies like these that make a jaded movi...
3 cv003_12683.txt neg " quest for camelot " is warner bros . ' firs...
4 cv004_12641.txt neg synopsis : a mentally unstable man undergoing ...
text
列を処理するには、 How to NLTK word_tokenize to a Pandas dataframe for Twitter data?
@alvasを参照してください。あなたはそれを行う方法を示したので、おそらくあなたの "それは不可能"の主張を削除する必要があります。 – alexis
ああ、そうでしょう"単純にそれを初期化することはできないと思う" =) – alvas
こう簡単に初期化することはできないと思う。 NLTKの 'CategorizedPlaintextCorpusReader'オブジェクトは' pandas'の 'dtype'ではありません。 – alvas