Pyspark Pyodbcに相当する？

私は現在、パンダにローカルのSQL ServerのDBからテーブルを読み込むために、次のPythonコードを持っている：コードが機能することをPyspark Pyodbcに相当する？

import pandas as pd 
import pyodbc 

# Connect to DB 
server = 'server' 
db = 'db' 

conn = pyodbc.connect('DRIVER={SQL SERVER}; SERVER=' + server + '; DATABASE=' + db + '; TRUSTED_CONNECTION=yes') 
cursor = conn.cursor() 

table = 'table' 
df = pd.read_sql('Select * From ' + table, conn)

が、今はPysparkで同じことをしたいと思います。 Pysparkでこのコードと同等のものは何ですか？

私は次のことを試してみました：

import findspark 
import os 
from pyspark.sql import SparkSession 
from pyspark.sql.functions import * 

# didn't know which of these would work so tried both 
os.environ['SPARK_CLASSPATH'] = 'path/to/sqljdbc42.jar' 
os.environ['driver-class-path'] = 'path/to/sqljdbc42.jar' 

findspark.init('C:/spark/spark') 

spark = SparkSession \ 
     .builder \ 
     .appName("SparkCoreTest") \ 
     .getOrCreate() 

sc = spark.sparkContext 
sqlctx = SQLContext(sc) 

server = 'server' 
db = 'db' 
url = 'jdbc:sqlserver//' + server + ';databaseName=' + db 
table = 'table' 
properties = {'driver' : 'com.microsoft.sqlserver.jdbc.SQLServerDriver'} 

df = sqlctx.read.format('jdbc').options(url=url, dbtable=table, driver='{SQL SERVER}').load()

これはjava.lang.ClassNotFoundException: {SQL SERVER}を与えます。このプロセスでは、「適切なドライバ」を見つけることができなかったためにエラーが発生しました。私はそれらを修正したと思いますが、os.environを変更します。どんな助けでも大歓迎です！

出典

2017-11-28 tgordon18

あなたは明らかに "pyodbcのpyspark equivalent"を意味します... – desertnaut

あなたはかなり近いです。 ClassNotFoundExceptionは、ドライバjarが見つからないことを意味します。

MySQL、SQL Serverなどのドライバを使用するには、マスタとスレーブの両方からアクセス可能なフォルダにjarを置くことが重要です（sparkをローカルに実行しても問題ありません）。

spark-submit --jars /path/to/sqljdbc42.jar ...other params... yourscript.py

か：：

# create a configuration instance and set the spark.jars option 
conf = SparkConf() 
conf.set('spark.jars', '/path/to/sqljdbc42.jar') 

# give that configuration to the spark session 
spark = SparkSession.builder\ 
        .config(conf=conf) \ 
        .appName(app_name) \ 
        .getOrCreate()

また、あなたはsから読み取るために直接スパークセッションではないSQLContextを使用する必要がありますいずれかのこのような--jarsフラグと瓶の場所（お使いの火花のバージョンによって異なりさえ思った）QLサーバ：

df = spark.read.format('jdbc').options(url=url, dbtable=table).load()

（driver jar ）

（注：そこの環境変数で作業する方法もあるが、私はそれを使用していない）

希望、これは幸運に役立ちます！

出典

2017-11-28 16:23:42 mkaran

Pyspark Pyodbcに相当する？

答えて

関連する問題