2017-02-14 13 views
1

申し訳ありませんが、これは基本的な質問ですが、今日はpandasモジュールを使用し始めました。しかし、基本的に私はこのCSVファイルをクリーンアップするために使用しています。私は特定の文字列(または部分文字列)を2番目の列で検索しようとしていますが、見つかった場合は、true/falseのブール値を含む新しい列をデータセットに追加したいと思います。指定された文字列かどうか)。提案?Pandas(Pythonモジュール) - 特定の列の文字列を検索中

答えて

0

あなたはSeries.str.contains()メソッドを使用することができます。

df['new'] = df.iloc[:, 1].str.contains(r'substring', flags=re.I) 

デモ:働い

In [40]: import re 

In [41]: df 
Out[41]: 
    a  b c 
0 1 Anna 10 
1 2 Barton 11 
2 3  Max 12 

In [42]: df['new'] = df.iloc[:, 1].str.contains(r'ma', flags=re.I) 

In [43]: df 
Out[43]: 
    a  b c new 
0 1 Anna 10 False 
1 2 Barton 11 False 
2 3  Max 12 True 
+0

は、ありがとうございました!私はちょうど文字列の前に "r"が何か/なぜそれが必要なのか疑問に思っていたのですか? – dgx

+0

また、文字列を検索する方法はありますか?大文字と小文字は区別されませんか? – dgx

+0

@ 123この特別なケースでは必ずしも必要ではありませんが、より複雑な正規表現には便利でしょう – MaxU

関連する問題