2017-09-08 5 views
1

movie_reviewsデータセットをnltk.corpusからdataframeに変換したいと考えています。 このデータをセンチメント分析に使用することを目的としています。 パンダを使用してデータを変換しながら、私はエラーを取得しています'CategorizedPlaintextCorpusReader'をデータフレームに変換する

from nltk.corpus import movie_reviews 
    import pandas as pd 

    mr=movie_reviews 
    movie=pd.DataFrame(mr) 

    >> ValueError: DataFrame constructor not properly called! 
+2

@alvasを参照してください。あなたはそれを行う方法を示したので、おそらくあなたの "それは不可能"の主張を削除する必要があります。 – alexis

+0

ああ、そうでしょう"単純にそれを初期化することはできないと思う" =) – alvas

+0

こう簡単に初期化することはできないと思う。 NLTKの 'CategorizedPlaintextCorpusReader'オブジェクトは' pandas'の 'dtype'ではありません。 – alvas

答えて

1

アンNLTKのCategorizedPlaintextCorpusReaderオブジェクトがpandasためdtypeではありません。

import pandas as pd 

from nltk.corpus import movie_reviews as mr 

reviews = [] 
for fileid in mr.fileids(): 
    tag, filename = fileid.split('/') 
    reviews.append((filename, tag, mr.raw(fileid))) 

df = pd.DataFrame(reviews, columns=['filename', 'tag', 'text']) 

[外]:言われて、あなたはタプルのリストに映画のレビューを変換してからのようなデータフレームを取り込むことができ

>>> df.head() 
      filename tag            text 
0 cv000_29416.txt neg plot : two teen couples go to a church party ,... 
1 cv001_19502.txt neg the happy bastard's quick movie review \ndamn ... 
2 cv002_17424.txt neg it is movies like these that make a jaded movi... 
3 cv003_12683.txt neg " quest for camelot " is warner bros . ' firs... 
4 cv004_12641.txt neg synopsis : a mentally unstable man undergoing ... 

text列を処理するには、 How to NLTK word_tokenize to a Pandas dataframe for Twitter data?

関連する問題