2016-08-09 6 views
1

からカスタマイズされたストップワードを削除します。Python remove stop words from pandas dataframePythonの私は、次の質問次られたパンダのデータフレーム

をしかし、それは、このコードをチェックアウトし、カスタマイズされたストップワードのリストについては、私のために働くdoes notの:

pos_tweets = [('I love this car', 'positive'), 
('This view is amazing', 'positive'), 
('I feel great this morning', 'positive'), 
('I am so excited about the concert', 'positive'), 
('He is my best friend', 'positive')] 

import pandas as pd 
test = pd.DataFrame(pos_tweets) 


test.columns = ["tweet","col2"] 
test["tweet"] = test["tweet"].str.lower().str.split() 

stop = ['love','car','amazing'] 

test['tweet'].apply(lambda x: [item for item in x if item not in stop) 

print test 

結果をは:

        tweet  col2 
0      [i, love, this, car] positive 
1     [this, view, is, amazing] positive 
2   [i, feel, great, this, morning] positive 
3 [i, am, so, excited, about, the, concert] positive 
4     [he, is, my, best, friend] positive 

言葉愛、車、そして驚くべきことがまだありますが、私は何が欠けていますか?

ありがとうございました!

答えて

1

あなたは、列tweetに戻って出力を割り当てる必要があります。

test['tweet'] = test['tweet'].apply(lambda x: [item for item in x if item not in stop]) 

print (test) 
             tweet  col2 
0         [i, this] positive 
1       [this, view, is] positive 
2   [i, feel, great, this, morning] positive 
3 [i, am, so, excited, about, the, concert] positive 
4     [he, is, my, best, friend] positive 
+0

あなたのソリューションがpperfectly働いていました!もう一つの質問、私のようなテキストからカンマを削除するために何をすべきか: ツイートCOL2 0 [Iこの]正 1 [このビューがある]正 2 [私は最高の気分今朝]正 3 [私はコンサートについてとても興奮しています] 4 [彼は私の親友です] + – Ctrip

+1

各行の文字列に変換する必要がありますか? – jezrael

関連する問題