私はSparkを使用してPostgresデータベースにテキストファイルをエクスポートしようとしています。私は個々のテキストファイルをエクスポートするために以下のコードを使用しています。私は同じフォルダ内に200近いテキストファイルを持ち、すべてのテキストファイルは同じ構造をしています。残念ながら、年の値は私の入力ファイルの一部ではないので、私はそれをコーディングしています。Spark - Automationを使用してPostgreSQLにテキストファイルをエクスポートする
私は一度にこれらのファイルをすべてアップロードしたいと思いますが、それを行う方法はわかりません。
from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
lines = sc.textFile("/aaaa/bbbb/DataFile/t-1870.txt")
splits = lines.map(lambda l: l.split(","))
raw_data = splits.map(lambda b: Row(name=b[0], gender=b[1],count=int(b[2]),year=int(1870)))
schemaBabies = sqlContext.createDataFrame(raw_data)
schemaBabies.registerTempTable("raw_data")
df = sqlContext.sql("select * from raw_data")
pgurl="jdbc:postgresql://localhost:5432/sparkling?user=XXXX&password=XXXX"
properties={"user":"XXXX","password":"XXXX","driver":"org.postgresql.Driver","mode":"append"}
df.write.jdbc(url = pgurl ,table = "EDW.raw_data",properties=properties)
あなたの入力に基づいて私のコードにいくつかの変更を加えました。私はすべての200個のテキストファイルをデータベースに読み込むことができました。本当にあなたの助けを感謝します。 – ytasfeb15