2017-03-06 5 views
1

hdfsでパーティション分割された寄木張りファイルを作成し、HIVE外部テーブルを作成しました。パーティション化カラムでフィルタを使用してテーブルをクエリすると、sparkは特定のパーティションではなくすべてのパーティションファイルをチェックします。私たちはスパーク1.6.0です。スパークパーティションプルーニングが1.6.0で動作しません

データフレーム:

df = hivecontext.createDataFrame([ 
    ("class1", "Economics", "name1", None), 
    ("class2","Economics", "name2", 92), 
    ("class2","CS", "name2", 92), 
    ("class1","CS", "name1", 92) 
], ["class","subject", "name", "marks"]) 

は、寄木細工のパーティションを作成:

hivecontext.setConf("spark.sql.parquet.compression.codec", "snappy") 
hivecontext.setConf("spark.sql.hive.convertMetastoreParquet", "false") 
df1.write.parquet("/transient/testing/students", mode="overwrite", partitionBy='subject') 

問合せ:

df = hivecontext.sql('select * from vatmatching_stage.students where subject = "Economics"') 
df.show() 

+------+-----+-----+---------+ 
| class| name|marks| subject| 
+------+-----+-----+---------+ 
|class1|name1| 0|Economics| 
|class2|name2| 92|Economics| 
+------+-----+-----+---------+ 

df.explain(True) 

    == Parsed Logical Plan == 
    'Project [unresolvedalias(*)] 
    +- 'Filter ('subject = Economics) 
     +- 'UnresolvedRelation `vatmatching_stage`.`students`, None 

    == Analyzed Logical Plan == 
    class: string, name: string, marks: bigint, subject: string 
    Project [class#90,name#91,marks#92L,subject#89] 
    +- Filter (subject#89 = Economics) 
     +- Subquery students 
      +- Relation[class#90,name#91,marks#92L,subject#89] ParquetRelation: vatmatching_stage.students 

    == Optimized Logical Plan == 
    Project [class#90,name#91,marks#92L,subject#89] 
    +- Filter (subject#89 = Economics) 
     +- Relation[class#90,name#91,marks#92L,subject#89] ParquetRelation: vatmatching_stage.students 

    == Physical Plan == 
    Scan ParquetRelation: vatmatching_stage.students[class#90,name#91,marks#92L,subject#89] InputPaths: hdfs://dev4/transient/testing/students/subject=Art, hdfs://dev4/transient/testing/students/subject=Civil, hdfs://dev4/transient/testing/students/subject=CS, hdfs://dev4/transient/testing/students/subject=Economics, hdfs://dev4/transient/testing/students/subject=Music 

しかし、私はHIVEブラウザ上で同じクエリを実行する場合、我々はHIVEがやっていることがわかりますパーティションプルーニング。

44 location hdfs://testing/students/subject=Economics 
45 name vatmatching_stage.students 
46 numFiles 1 
47 numRows -1 
48 partition_columns subject 
49 partition_columns.types string 

spark 1.6.0ではこの制限がありますか、ここで何か不足していますか?

答えて

1

この問題の根本原因が見つかりました。テーブルを照会するために使用されるHiveContextには "spark.sql.hive.convertMetastoreParquet"が "false"に設定されていません。デフォルト値はtrueです。

"false"に設定すると、使用パーティションのプルーニング

+0

これはスパークのバグですか?EXPLAINでは、これをfalseに設定すると、クエリが正しいパーティションだけをスキャンすることがわかります。 –

関連する問題