2016-12-07 6 views
3

私はEMRでScalaで書かれたSpark Jobを実行しています。各ExecutorのstdoutはGC割り当ての失敗でいっぱいです。EMRクラスタでのGCの最適化

2016-12-07T23:42:20.614+0000: [GC (Allocation Failure) 2016-12-07T23:42:20.614+0000: [ParNew: 909549K->432K(1022400K), 0.0089234 secs] 2279433K->1370373K(3294336K), 0.0090530 secs] [Times: user=0.11 sys=0.00, real=0.00 secs] 
2016-12-07T23:42:21.572+0000: [GC (Allocation Failure) 2016-12-07T23:42:21.572+0000: [ParNew: 909296K->435K(1022400K), 0.0089298 secs] 2279237K->1370376K(3294336K), 0.0091147 secs] [Times: user=0.11 sys=0.01, real=0.00 secs] 
2016-12-07T23:42:22.525+0000: [GC (Allocation Failure) 2016-12-07T23:42:22.525+0000: [ParNew: 909299K->485K(1022400K), 0.0080858 secs] 2279240K->1370427K(3294336K), 0.0082357 secs] [Times: user=0.12 sys=0.00, real=0.01 secs] 
2016-12-07T23:42:23.474+0000: [GC (Allocation Failure) 2016-12-07T23:42:23.474+0000: [ParNew: 909349K->547K(1022400K), 0.0090641 secs] 2279291K->1370489K(3294336K), 0.0091965 secs] [Times: user=0.12 sys=0.00, real=0.00 secs] 

私は数TBのデータの、(主に文字列を)読んでいますので、私は一定のGCは、処理時間が遅くなることを心配しています。
このメッセージを理解する方法と、GCを最適化して最小CPU時間を消費する方法を理解していただきありがとうございます。

答えて

4

割り当て失敗は、GCサイクルを開始するための通常の、そして最も一般的な理由です。

ログは、GCが1秒に1回発生し、約10ms、つまり1%の時間がかかることを示します。 IMO、ここでは最適化するものはありません。