PySparkアプリケーションのGoogle Cloud Bigtableでデータを読み書きする方法は？

Google Cloud DataprocクラスタでSparkを使用しており、PySparkジョブでBigtableにアクセスしたいと考えています。 Google BigQueryコネクタのようなSpark用のBigtableコネクタはありますか？PySparkアプリケーションのGoogle Cloud Bigtableでデータを読み書きする方法は？

PySparkアプリケーションからBigtableにアクセスするにはどうすればよいですか？

出典

2016-11-02 Revan

Cloud Bigtableは、通常、Apache HBase APIsを使用してSparkからアクセスするのが最適です。

HBaseは現在、Hadoop MapReduceのI/Oフォーマットのみを提供しています。これらは、SparkContext.newAPIHadoopRDDメソッドを使用してSpark（またはPySpark）からアクセスできます。しかし、レコードをPythonで使えるものに変換するのは難しいです。

HBaseはSpark SQL APIを開発していますが、リリースされたバージョンでは統合されていません。 HortonworksにはSpark HBase Connectorがありますが、Spark 1.6（Cloud Dataprocバージョン1.0が必要です）でコンパイルされていますが、これを使用していないので、使い方が簡単ではありません。

また、PythonベースのBigtableクライアントを使用し、PySparkを並列処理に使用することもできます。

出典

2016-11-02 15:43:47

PySparkアプリケーションのGoogle Cloud Bigtableでデータを読み書きする方法は？

答えて

関連する問題