2016-11-29 6 views
4

私はLBFGSロジスティック回帰を使用して、例を2つのカテゴリのいずれかに分類しています。私がモデルを訓練しているとき、私はこの種の多くの警告を受ける -sparkタスクのサイズが大きすぎます

WARN scheduler.TaskSetManager: Stage 132 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB. 
WARN scheduler.TaskSetManager: Stage 134 contains a task of very large size (102 KB). The maximum recommended task size is 100 KB. 
WARN scheduler.TaskSetManager: Stage 136 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB. 

私は約94の特徴と約7500の訓練の例を持っています。タスクのサイズを小さなまとまりに分割するために渡すべき他の議論がいくつかありますか?

また、最悪の場合無視してもよいという警告ですか?それとも、訓練を妨げるのでしょうか?

私はこのように私のトレーナーを呼んでいる -

val lr_lbfgs = new LogisticRegressionWithLBFGS().setNumClasses(2) 
lr_lbfgs.optimizer.setRegParam(reg).setNumIterations(numIterations) 
val model = lr_lbfgs.run(trainingData) 

また、私のドライバとエグゼキュータのメモリは私が必要とするすべての変数やメソッドの​​

答えて

2

スパークsends a copyへの引数として設定20Gです執行者に見えるようにする。この警告は、合計で、これらのオブジェクトが100 KBを超えていることを意味します。パフォーマンスに顕著な影響を与えない場合は、この警告を無視してもかまいません。または、一部の変数をbroadcast variablesとマークすることもできます。

+0

お返事いただきありがとうございます。訓練と評価の時間はあまり長くなく、すぐには大したことではないので、警告を無視します。 – shashydhar

+0

問題ありません、歓声! – user4601931

関連する問題