リモートデータベースから時系列(ts)データをダウンロードし、データをcsv
ファイルとして保存するプログラムが1つあります。新しいTSデータは古いTSデータに追加されます。私のローカルフォルダは、より多くのデータがダウンロードされるにつれて、成長し成長し続けます。新しいTSデータをダウンロードして保存した後、そのデータをGoogle BigQueryテーブルにアップロードします。これを行う最善の方法は何ですか?Python/Pandas/BigQuery:新しい時系列データを多数使用して既存のテーブルを効率的に更新するにはどうすればよいですか?
私の現在の仕事の流れcsv
ファイルは私のローカルマシン上gzip
ファイルに変換し、その後、csv
ファイルにすべてのデータをダウンロードして、その後Google Cloud Storage
にそれらのgzip
ファイルをアップロードするgsutil
を使用することです。次に、Google BigQuery
にあるテーブルを削除し、まずGoogle BigQuery
の既存のテーブルを削除してから、新しいテーブルを手動で作成し、Google Cloud Storage
からデータをアップロードして新しいテーブルを作成します。重要な自動化/改善の余地があるように感じますが、Google Cloudの初心者です。
編集:私がダウンロードしているデータは、Yahoo Financeからの時系列データをダウンロードすることができます。新しい日が来るたびに、ローカルマシンにダウンロードして保存する新しいデータがあります。 Google BigQUery
にあるすべてのデータをアップロードして、SQL
の解析を行うことができます。
[データ転送サービス](https://cloud.google.com/bigquery/transfer/)を見たことがありますか?それがあなたのために働くのだろうかと思います。 –