rdd

    0

    1答えて

    もう一つの問題不変です。次のように:これは初心者のために仕事を得るためにどのように <console>:182: error: type mismatch; found : org.apache.spark.rdd.RDD[Product with Serializable] required: org.apache.spark.rdd.RDD[(String, Int)] Note: Pr

    0

    1答えて

    私は(id1、id2、score)の形式のRDDを持っています。上の(5)行は次のようになります [(41955624, 42044497, 3.913625989045223e-06), (41955624, 42039940, 0.0001018890937469129), (41955624, 42037797, 7.901647831291928e-05), (41955624, 4

    1

    1答えて

    私のコードで私が定義した簡単な文字列パーサ関数をテストしていましたが、ワーカーノードの1つが実行時に常に失敗します。 /* JUST A SIMPLE PARSER TO CLEAN PARENTHESIS */ def parseString(field: String): String = { val Pattern = "(.*.)".r field match{

    2

    1答えて

    ファイルデータを日付ごとに良好なデータと悪いデータにフィルタリングしようとしています。したがって、2つの結果ファイルが得られます。テストファイルから、最初の4行は正常なデータで、最後の2行は不正なデータである必要があります。 (のみ 名の文字を拾う - 私は、結果ファイルを任意の良いデータを取得していない午前2つの問題 を持っていますが、空の と悪いデータ結果は次のようになりますです、C、H) (

    0

    1答えて

    Apache Sparkは、Resilient Distributed Datasetという概念を持っています。 アンRDDは次のとおりです。 それは、オブジェクトの不変分布するコレクションです。 RDD内の各データセットは論理パーティションに分割され、論理パーティションはクラスタの異なるノードで計算されます。 正式には、RDDは読み取り専用で分割されたレコードの集合です。 RDDは、安定したスト

    1

    3答えて

    RDD [Array [Row]]をRDD [Row]に変換する方法は? 詳細: 私は私の解析関数は、いくつかのデータの型アレイ[行]を返し、いくつかのデータの行、いくつかのユースケースを持っています。これらを両方ともRDD [行]に変換して、今後どのように使用しますか? コードサンプル private def getRows(rdd: RDD[String], parser: Parser):

    0

    1答えて

    I持って一つのキー/値ペアRDD {(("a", "b"), 1), (("a", "c"), 3), (("c", "d"), 5)} 私は疎行列を得ることができる方法: 0 1 3 0 1 0 0 0 3 0 0 5 0 0 5 0 すなわち from pyspark.mllib.linalg import Matrices Matrices.sparse(4, 4, [0,

    0

    1答えて

    複数のRDDの文字列をRDDの特定の順序でマージしようとしています。私はMap[String, RDD[Seq[String]]]を作成(Seqが一つだけの要素が含まれている場合)、その後RDD[Row[String]]にそれらをマージしようとしたが、動作しているようですしません(RDD[Seq[String]]の内容が失われている)。..誰かが任意のアイデアを持っていますか? val t1: S

    0

    2答えて

    2つのワーカーノードと1つのマスターノードを持つSparkスタンドアロンクラスタがあります。 spark-shellを使って、私はローカルファイルシステム上のファイルからデータを読み込んだ後、いくつかの変換を行い、最終的なRDDを/ home/outputに保存しました(言います) RDDは正常に保存されました。ワーカーノードとマスターノードで_SUCCESSファイルしか存在しませんでした。 この

    0

    1答えて

    RDDがx: key, y: set(values)、fileとなっています。 #values: RDD of tuples (key, val) file = values.groupByKey().mapValues(set).cache() info_file = array(file.map(lambda (x,y): len(y)).collect()) var = np.var