:フィルターPysparkのデータフレームの列Iが行値として<code>None</code>を持つPySparkのデータフレームをフィルタリングしようとしている
df.select('dt_mvmt').distinct().collect()
[Row(dt_mvmt=u'2016-03-27'),
Row(dt_mvmt=u'2016-03-28'),
Row(dt_mvmt=u'2016-03-29'),
Row(dt_mvmt=None),
Row(dt_mvmt=u'2016-03-30'),
Row(dt_mvmt=u'2016-03-31')]
と私は、文字列値を正しくフィルタリングすることができます:
df[df.dt_mvmt == '2016-03-31']
# some results here
が、これは失敗します。
df[df.dt_mvmt == None].count()
0
df[df.dt_mvmt != None].count()
0
を間違いなく、各カテゴリに値があります。どうしたの?
を有するヌルであるエントリのを持ってヌルでないエントリを得るために://www.python.org/dev/peps/pep-0008/#programming-recommendations)Noneのようなシングルトンとの比較には 'is'と' is not'を使うべきです。 – Natecat
はい、PySparkデータフレームをフィルタリングするのに 'is'も' is not'もありません: 'In [222]:df [df.dt_mvmtはなし] .show() TypeError: '列'オブジェクトは呼び出し可能ではありません。 – Ivan