stdthread

0熱

1答えて

私はSparkの世界初心者で、SparkRを使用してMachine Learningアルゴリズムを実行したいと考えています。私はラップトップ（Windows 7 64ビット版）にスタンドアロンモードでSparkをインストールしました。この有効ガイドに続いてSpark（1.6.1）、Pysparkを実行し、WindowsでSparkRを起動することができます：link。それが理由のように思える

0熱

1答えて

型の不一致、予想（（ダブル、ダブル））=>ブール、実際の（（ダブル、ダブル））=>どれ

Iによる3つのエラーのためにコンパイルされません、次の二つの機能を持っている： RegressionMetrics：Cannot resolve constructor _.nonEmpty：Type mismatch, expected ((Double,Double))=>Boolean, actual ((Double,Double))=>Any reduce(_+_)：Cannot res

1熱

2答えて

スパーク - デバイス上にスペースが残っていない

以下のエラーが発生しています。 Spark_local_dirが設定され、十分なスペースとinodeが残っています。は/ dev /マッパー/メタ200G 1.1G 199G 1％は/ var/log/Hadoopのにマウントされた java.io.IOException: No space left on device at java.io.FileOutputStream.wri

0熱

1答えて

スパークの寄木細工のネストした値を平坦化

私は寄木細工のファイルを持っています。私はSparkを使ってロードしました。そして、値の1つはネストされたキー、値のペアです。どのように平らにするのですか？ df.printSchema root |-- location: string (nullable = true) |-- properties: string (nullable = true) texas,{"key":{"

7熱

3答えて

ケースクラスベースのRDDをDataFrameに変換するにはどうすればよいですか？

Spark documentationは、Scalaのケースクラスを使用してスキーマを推論する、RDDからDataFrameを作成する方法を示しています。 sqlContext.createDataFrame(RDD, CaseClass)を使用してこのコンセプトを再現しようとしていますが、DataFrameが空になります。ここに私のScalaのコードは次のとおりです。 // sc is the

3熱

1答えて

PySpark ML

にDecisionTreeClassifierからtoDebugStringをゲット私はこの1つのようなパイプラインを使用してDecisionTreeClassifierモデルを訓練しました。私は今、モデルの精度を評価することができます。たとえば、 mc_evaluator = MulticlassClassificationEvaluator( labelCol="target_idx", pr

2熱

2答えて

sparkとscalaのforループをどのように並列化できますか？

たとえば、過去3年間に2000株の終値を持つ寄木張りファイルがあり、各シンボルの5日間の移動平均を計算したいとします。だから私は val symbols = marketData.select("SYMBOL").distinct().collect() 、ここでは、forループで、シンボルのリストを取得するには、スパークSQLContextを作成し、 val marketData = sq

0熱

1答えて

スパーク中：どのようなパーティションが正確に機能しますか？

スパーク中：groupByの後にすべてが1つのエグゼキュータに行きます。 aの後にrepartition(x)を実行すると、rddはxエグゼキュータで配布されるか、またはx個のパーティションにチャンクされて、xrddブロックで1つのエグゼキュータが得られますか？例： rdd = rdd_tmp.groupBy.repartition(32).cache() rdd.count() 私は32

0熱

1答えて

SPARK：DRIVER MEMORYの数を増やすとパフォーマンスが低下する可能性がありますか？

私はSpark 1.5.2で動作するアプリケーションをチューニングしています。私は全く同じスクリプトを2回実行しましたが、driver.memoryのパラメータは異なります。初回：driver.memory = 15グラム/実行時間：6,1h セカンド時間：driver.memory = 2グラム/実行時間：5,7h スクリプトの目標Hiveテーブルに保存する前に、新しいテーブルで同じテーブルに

2熱

1答えて

Spark DataFrame Cache Large TempTable

私は非常に大きなDataframeを持つスパークアプリケーションを持っています。私は現在tempTableとしてデータフレームを登録しているので、いくつかのクエリを実行することができます。私はRDDを使用しているときに、persist（StorageLevel.MEMORY_AND_DISK（））を使用して、tempTableに相当するものを使用します。以下の2つの可能性があります。cache