列の値がsparkのリストと等しいかどうかによるフィルタリング

列の値がリストと等しいかどうかに基づいて、スパークデータフレームをフィルタリングしようとしています。列の値がsparkのリストと等しいかどうかによるフィルタリング

filtered_df = df.where(df.a == ['list','of' , 'stuff'])

filtered_dfだけfiltered_df.aの値が['list','of' , 'stuff']あるとaのタイプはarray (nullable = true)ある行を含む場合：私はこのような何かをしたいと思います。

出典

2016-03-24 Luke

更新それを行うためのハッキーな方法は、Pythonのバッチジョブを必要としませんが、sこのようomething：

from pyspark.sql.functions import col, lit, size 
from functools import reduce 
from operator import and_ 

def array_equal(c, an_array): 
    same_size = size(c) == len(an_array) # Check if the same size 
    # Check if all items equal 
    same_items = reduce(
     and_, 
     (c.getItem(i) == an_array[i] for i in range(len(an_array))) 
    ) 
    return and_(same_size, same_items)

クイックテスト：

df = sc.parallelize([ 
    (1, ['list','of' , 'stuff']), 
    (2, ['foo', 'bar']), 
    (3, ['foobar']), 
    (4, ['list','of' , 'stuff', 'and', 'foo']), 
    (5, ['a', 'list','of' , 'stuff']), 
]).toDF(['id', 'a']) 

df.where(array_equal(col('a'), ['list','of' , 'stuff'])).show() 
## +---+-----------------+ 
## | id|    a| 
## +---+-----------------+ 
## | 1|[list, of, stuff]| 
## +---+-----------------+

出典

2016-03-24 18:47:41 zero323

udfを作成することがあります。

from pyspark.sql.functions import array, lit 

df.where(df.a == array(*[lit(x) for x in ['list','of' , 'stuff']]))

オリジナルの答え：

まあ、少しあなたはリテラルのarrayを使用することができ、現在のバージョンでは

：例えば：

def test_in(x): 
    return x == ['list','of' , 'stuff'] 

from pyspark.sql.functions import udf 
f = udf(test_in, pyspark.sql.types.BooleanType()) 
filtered_df = df.where(f(df.a))

出典

2016-03-24 18:41:31

はしかしその少し遅いですか？ – Luke

列の値がsparkのリストと等しいかどうかによるフィルタリング

答えて

関連する問題