stdthread

    0

    1答えて

    私はSparkの世界初心者で、SparkRを使用してMachine Learningアルゴリズムを実行したいと考えています。 私はラップトップ(Windows 7 64ビット版)にスタンドアロンモードでSparkをインストールしました。この有効ガイドに続いてSpark(1.6.1)、Pysparkを実行し、WindowsでSparkRを起動することができます:link。 それが理由のように思える

    0

    1答えて

    Iによる3つのエラーのためにコンパイルされません、次の二つの機能を持っている: RegressionMetrics:Cannot resolve constructor _.nonEmpty:Type mismatch, expected ((Double,Double))=>Boolean, actual ((Double,Double))=>Any reduce(_+_):Cannot res

    1

    2答えて

    以下のエラーが発生しています。 Spark_local_dirが設定され、十分なスペースとinodeが残っています。 は/ dev /マッパー/メタ200G 1.1G 199G 1%は/ var/log/Hadoopのにマウントされた java.io.IOException: No space left on device at java.io.FileOutputStream.wri

    0

    1答えて

    私は寄木細工のファイルを持っています。私はSparkを使ってロードしました。そして、値の1つはネストされたキー、値のペアです。どのように平らにするのですか? df.printSchema root |-- location: string (nullable = true) |-- properties: string (nullable = true) texas,{"key":{"

    7

    3答えて

    Spark documentationは、Scalaのケースクラスを使用してスキーマを推論する、RDDからDataFrameを作成する方法を示しています。 sqlContext.createDataFrame(RDD, CaseClass)を使用してこのコンセプトを再現しようとしていますが、DataFrameが空になります。ここに私のScalaのコードは次のとおりです。 // sc is the

    3

    1答えて

    にDecisionTreeClassifierからtoDebugStringをゲット私はこの1つのようなパイプラインを使用してDecisionTreeClassifierモデルを訓練しました。私は今、モデルの精度を評価することができます。たとえば、 mc_evaluator = MulticlassClassificationEvaluator( labelCol="target_idx", pr

    2

    2答えて

    たとえば、過去3年間に2000株の終値を持つ寄木張りファイルがあり、各シンボルの5日間の移動平均を計算したいとします。 だから私は val symbols = marketData.select("SYMBOL").distinct().collect() 、ここでは、forループで、シンボルのリストを取得するには、スパークSQLContextを作成し、 val marketData = sq

    0

    1答えて

    スパーク中:groupByの後にすべてが1つのエグゼキュータに行きます。 aの後にrepartition(x)を実行すると、rddはxエグゼキュータで配布されるか、またはx個のパーティションにチャンクされて、xrddブロックで1つのエグゼキュータが得られますか? 例: rdd = rdd_tmp.groupBy.repartition(32).cache() rdd.count() 私は32

    0

    1答えて

    私はSpark 1.5.2で動作するアプリケーションをチューニングしています。私は全く同じスクリプトを2回実行しましたが、driver.memoryのパラメータは異なります。 初回:driver.memory = 15グラム/実行時間:6,1h セカンド時間:driver.memory = 2グラム/実行時間:5,7h スクリプトの目標Hiveテーブルに保存する前に、新しいテーブルで同じテーブルに

    2

    1答えて

    私は非常に大きなDataframeを持つスパークアプリケーションを持っています。私は現在tempTableとしてデータフレームを登録しているので、いくつかのクエリを実行することができます。 私はRDDを使用しているときに、persist(StorageLevel.MEMORY_AND_DISK())を使用して、tempTableに相当するものを使用します。 以下の2つの可能性があります。cache