Google Cloud DataprocクラスタでSparkを使用しており、PySparkジョブでBigtableにアクセスしたいと考えています。 Google BigQueryコネクタのようなSpark用のBigtableコネクタはありますか?PySparkアプリケーションのGoogle Cloud Bigtableでデータを読み書きする方法は?
PySparkアプリケーションからBigtableにアクセスするにはどうすればよいですか?
Google Cloud DataprocクラスタでSparkを使用しており、PySparkジョブでBigtableにアクセスしたいと考えています。 Google BigQueryコネクタのようなSpark用のBigtableコネクタはありますか?PySparkアプリケーションのGoogle Cloud Bigtableでデータを読み書きする方法は?
PySparkアプリケーションからBigtableにアクセスするにはどうすればよいですか?
Cloud Bigtableは、通常、Apache HBase APIsを使用してSparkからアクセスするのが最適です。
HBaseは現在、Hadoop MapReduceのI/Oフォーマットのみを提供しています。これらは、SparkContext.newAPIHadoopRDD
メソッドを使用してSpark(またはPySpark)からアクセスできます。しかし、レコードをPythonで使えるものに変換するのは難しいです。
HBaseはSpark SQL APIを開発していますが、リリースされたバージョンでは統合されていません。 HortonworksにはSpark HBase Connectorがありますが、Spark 1.6(Cloud Dataprocバージョン1.0が必要です)でコンパイルされていますが、これを使用していないので、使い方が簡単ではありません。
また、PythonベースのBigtableクライアントを使用し、PySparkを並列処理に使用することもできます。