Apache MLlibランダムフォレストの並列トレーニング

200KサンプルのトレーニングセットでMLlibランダムフォレスト（org.apache.spark.mllib.tree.RandomForest）を訓練するJavaアプリケーションがあります。私は、訓練中にCPUコアが1つしか使用されていないことに気付きました。ランダムフォレストがNデシジョンツリーのアンサンブルであることを考えれば、ツリーを並行して訓練し、すべての使用可能なコアを利用することができると考えるだろう。意思決定ツリーの並列訓練を可能にする構成オプションまたはAPIコール、または他に何かがありますか？Apache MLlibランダムフォレストの並列トレーニング

出典

2016-11-05 Morten Jorgensen

アクティブなスレッドが1つだけ表示された場合は、コードまたはコンフィグレーションで、org.apache.spark.mllib.tree.RandomForestではなく、 –

@LostInOverflow wikiの回答ですか？ – eliasah

@eliasah Morten Jorgensenにこの質問を更新する時間を与えましょう。 –

私はこれに対する答えを見つけました。この問題は、SparkConf.setMaster（ "local"）を使用してSparkの設定をどのようにセットアップするかで問題になりました。今、私たちは、はるかに高速ランニング、トレーニング、およびバージニア州のアマゾンのデータセンターはわずかである

http://spark.apache.org/docs/latest/api/java/org/apache/spark/SparkConf.html#setMaster(java.lang.String)

を：私は、javadocのあたりとして、16個のスレッドを使用する（「[16]ローカル」）SparkConf.setMasterにこれを変更しますhotter :)

RTFMの典型的なケースですが、私の防衛では、このsetMaster（）の使用は私にとってはちょっとハッキリです。より良い設計は、使用するローカルスレッド/コアの数を設定するための別個のメソッドを追加することです。

出典

2017-01-25 13:28:44

Apache MLlibランダムフォレストの並列トレーニング

答えて

関連する問題