答えて

4

Cloud Bigtableは、通常、Apache HBase APIsを使用してSparkからアクセスするのが最適です。

HBaseは現在、Hadoop MapReduceのI/Oフォーマットのみを提供しています。これらは、SparkContext.newAPIHadoopRDDメソッドを使用してSpark(またはPySpark)からアクセスできます。しかし、レコードをPythonで使えるものに変換するのは難しいです。

HBaseはSpark SQL APIを開発していますが、リリースされたバージョンでは統合されていません。 HortonworksにはSpark HBase Connectorがありますが、Spark 1.6(Cloud Dataprocバージョン1.0が必要です)でコンパイルされていますが、これを使用していないので、使い方が簡単ではありません。

また、PythonベースのBigtableクライアントを使用し、PySparkを並列処理に使用することもできます。

関連する問題