私は5億の行を持つCassandraテーブルを持っています。私はスパークを使用してカサンドラのパーティションキーであるフィールドに基づいてフィルタを適用したいと思います。Sparkの巨大なデータフレームでの効率的なフィルタリング
非常に大きいリストキーに基づいて、Spark/Spark SQLでフィルタリングする可能な限り最良の方法を提案できますか。
基本的には、キーのリストにあるCassandraテーブルの行だけが必要です。
私たちはDSEとその機能を使用しています。 私が使っているアプローチは、およそ1時間ほどかかっています。
大きなリストではどういう意味ですか? – mtoto
2つのデータセットを結合したいと思います。 500万以上のレコードとキーのリスト(つまり、object_id)を持つCassandraテーブル。最終結果は、リスト内のobject_idが一致するカスドンドラ表の行のみである必要があります。私は時間の負荷を取っている結合を使用していると私はそれを防止したい –