2016-08-19 21 views
0

分散型ビッグデータプラットフォーム(Apache Sparkなど)のモデルをスタンドアローンマシン(JVMなど)でそのモデルを使用する方法可能?はスタンドアローンで予測する

私はPMMLについて聞いたことがありますが、それでも十分か分かりません。また、スパーク2.0 supports persistent modelを保存していますが、これらのモデルをロードして実行するために必要なものは不明です。

答えて

2

Apache Sparkの永続化は、Spark MLパイプラインをJSONデータフォーマットで保存してロードすることです(Pythonのpickleメカニズム、またはRのRDSメカニズムと考える)。これらのJSONデータ構造は、Spark MLクラスにマップされます。他のプラットフォームでは意味がありません。

PMMLに関しては、JPMML-SparkMLライブラリを使用して、Spark MLパイプラインをPMMLドキュメントに変換することができます。 JPMML-Evaluatorライブラリを使用して、PMMLドキュメントを実行することができます(Apache Spark、Python、またはRのいずれであっても問題ありません)。 Apache Mavenを使用してプロジェクトを管理および構築する場合は、プロジェクトのPOMに1つの依存関係宣言を追加するだけでJPMML-Evaluatorを組み込むことができます。