2016-07-28 8 views
1

親愛なるApacheのスパーク地域コミュニティ:最適化ルーチン(1.6.2スパーク)

私は数週間スパークのマニュアルを読んでいます。私はMLlibのLogistic Regressionを読んで、Sparkは2種類の最適化ルーチン(SGDとL-BFGS)を使用することに気付きました。

しかし、現在私はMLのLogistRegのドキュメントを読んでいます。私はルーチンdevlopersが使用した最適化の種類を明示的に見ることができませんでした。この情報はどのように要求できますか?多くのおかげで

、 ケビン・アイザックCarbajal

答えて

-1

大きなポイントは、彼らが使用しているAPIについてです。

MlLibはRDD APIに焦点を当てています。 Sparkのコアですが、SumsやAvgsなどの単純な関数のような処理の中には、DataFrameプロセスに時間がかかります。

MLは、データフレームで動作するライブラリです。そのdataFrameは、和のような基本的な関数のためのクエリの最適化を備えています。

このブログpostを確認することができます。これは、MLがMlLibよりも高速でなければならない理由の1つです。

+0

あなたの答えをありがとうが、それは私の質問ではありませんでした。 Logistic regression(ML)でどのような最適化ルーチンが使用されているのかをどのように知ることができますか? たとえば、このアルゴリズムの説明(http://spark.apache.org/docs/1.6.2/ml-classification-regression.html#multilayer-perceptron-classifier)では、最適化ルーチンを具体的に記述しています... "最適化ルーチンとしてロジスティックロス関数を使用し、最適化ルーチンとしてL-BFGSを使用します。 –

+0

わかりました!ごめんなさい!私はそのホールドを確認します! –