PySparkとHIVE/Impala

PySparkで分類モデルを作成したいと思います。このモデルへの私の入力は、ハイブまたはインパラからの選択されたクエリまたはビューの結果です。このクエリをPySparkコード自体に含める方法はありません。PySparkとHIVE/Impala

出典

2017-02-22 R RAMESH NAIK

はい、これはsparkContextでHiveContextを使用する必要があります。

sqlContext = HiveContext(sc) 
tableData = sqlContext.sql("SELECT * FROM TABLE") 
#tableData is a dataframe containing reference to schema of table, check this using tableData.printSchema() 
tableData.collect() #collect executes query and provide all rows from sql

またはあなたがここに https://spark.apache.org/docs/1.6.0/sql-programming-guide.html

出典

2017-02-22 14:46:41

おかげで迅速な応答のために多くのことを指すことがあり - ：ここでは一例です。 tableDataはモデルデータの入力データになりますか？私の全目的は、私の回帰モデルが機能し、自分のデータセット（列車とテスト）に最新の更新されたレコードを含める必要があります毎日pysparkロジット回帰コードを実行することです –

@RRAMESHNAIKはいテーブルのデータは、あなたのモデル。 –

本当にありがとうございました。もう一つは、データをRDDとして変換する必要があるということです。したがって、tableData.collect（）の結果は生データまたは既にRDDです。私はRDDとしてそれを変換する必要がありますか？ –

PySparkとHIVE/Impala

答えて

関連する問題