PySparkからSQLLite dbファイルからテーブルをロードするには？

ローカルディスクに格納されたSQLLite .dbファイルからテーブルをロードしようとしています。 PySparkでこれを行うきれいな方法はありますか？PySparkからSQLLite dbファイルからテーブルをロードするには？

現在、私はうまく機能しますが、エレガントではないソリューションを使用しています。最初に、sqlite3を使ってpandasを使ってテーブルを読みました。問題の1つは、プロセス中にスキーマ情報が渡されないこと（問題の可能性もありますが、問題ではない可能性があります）です。私はパンダを使わずにテーブルをロードする直接的な方法があるかどうか疑問に思っています。

import sqlite3 
import pandas as pd 

db_path = 'alocalfile.db' 
query = 'SELECT * from ATableToLoad' 

conn = sqlite3.connect(db_path) 
a_pandas_df = pd.read_sql_query(query, conn) 

a_spark_df = SQLContext.createDataFrame(a_pandas_df)

これを行うにはjdbcを使用する方法があるようですが、PySparkでどのように使用するかはわかりません。

出典

2016-08-16 Bin

どのようなスキーマ情報ですか？あなたはデータ型を意味しますか？そうではないsqlite *本当に*それらを持っている... –

まず最初に、パスのJDBCドライバjarを使用してpysparkを起動する必要があります。 sqllite jdbcドライバをダウンロードし、以下のjarパスを指定します。上記pysparkコマンドの、について説明するため https://bitbucket.org/xerial/sqlite-jdbc/downloads/sqlite-jdbc-3.8.6.jar

pyspark --conf spark.executor.extraClassPath=<jdbc.jar> --driver-class-path <jdbc.jar> --jars <jdbc.jar> --master <master-URL>

、今ここにポストの下

Apache Spark : JDBC connection not working

を参照してくださいあなたがそれを行うだろうかです： -

今のSQLiteデータベースファイルを読み込むために、単にそれをスパークデータフレームに読み込みます。

df = sqlContext.read.format('jdbc').\ 
    options(url='jdbc:sqlite:Chinook_Sqlite.sqlite',\ 
    dbtable='employee',driver='org.sqlite.JDBC').load()

df.printSchema()あなたのスキーマを表示してください。

全コード： - https://github.com/charles2588/bluemixsparknotebooks/blob/master/Python/sqllite_jdbc_bluemix.ipynb

おかげで、チャールズ。

出典

2016-08-17 16:51:20

PySparkからSQLLite dbファイルからテーブルをロードするには？

答えて

関連する問題