rdd

0熱

1答えて

もう一つの問題不変です。次のように：これは初心者のために仕事を得るためにどのように <console>:182: error: type mismatch; found : org.apache.spark.rdd.RDD[Product with Serializable] required: org.apache.spark.rdd.RDD[(String, Int)] Note: Pr

0熱

1答えて

Pyspark：RDDからRowMatrixへの変換

私は（id1、id2、score）の形式のRDDを持っています。上の（5）行は次のようになります [(41955624, 42044497, 3.913625989045223e-06), (41955624, 42039940, 0.0001018890937469129), (41955624, 42037797, 7.901647831291928e-05), (41955624, 4

1熱

1答えて

SparkクラスタのRDDマップ関数内で関数を呼び出す

私のコードで私が定義した簡単な文字列パーサ関数をテストしていましたが、ワーカーノードの1つが実行時に常に失敗します。 /* JUST A SIMPLE PARSER TO CLEAN PARENTHESIS */ def parseString(field: String): String = { val Pattern = "(.*.)".r field match{

2熱

1答えて

正規表現によるスパークフィルタ

ファイルデータを日付ごとに良好なデータと悪いデータにフィルタリングしようとしています。したがって、2つの結果ファイルが得られます。テストファイルから、最初の4行は正常なデータで、最後の2行は不正なデータである必要があります。（のみ名の文字を拾う - 私は、結果ファイルを任意の良いデータを取得していない午前2つの問題を持っていますが、空のと悪いデータ結果は次のようになりますです、C、H）（

0熱

1答えて

ネイティブClojureにResilient Distributed Datasetと同等の機能がありますか？

Apache Sparkは、Resilient Distributed Datasetという概念を持っています。アンRDDは次のとおりです。それは、オブジェクトの不変分布するコレクションです。 RDD内の各データセットは論理パーティションに分割され、論理パーティションはクラスタの異なるノードで計算されます。正式には、RDDは読み取り専用で分割されたレコードの集合です。 RDDは、安定したスト

1熱

3答えて

RDD [Array [Row]]をRDD [Row]に変換する

RDD [Array [Row]]をRDD [Row]に変換する方法は？詳細：私は私の解析関数は、いくつかのデータの型アレイ[行]を返し、いくつかのデータの行、いくつかのユースケースを持っています。これらを両方ともRDD [行]に変換して、今後どのように使用しますか？コードサンプル private def getRows(rdd: RDD[String], parser: Parser):

0熱

1答えて

疎行列にRDD pysparkを変換する方法

I持って一つのキー/値ペアRDD {(("a", "b"), 1), (("a", "c"), 3), (("c", "d"), 5)} 私は疎行列を得ることができる方法： 0 1 3 0 1 0 0 0 3 0 0 5 0 0 5 0 すなわち from pyspark.mllib.linalg import Matrices Matrices.sparse(4, 4, [0,

0熱

1答えて

複数のRDDを特定の順序でマージする

複数のRDDの文字列をRDDの特定の順序でマージしようとしています。私はMap[String, RDD[Seq[String]]]を作成（Seqが一つだけの要素が含まれている場合）、その後RDD[Row[String]]にそれらをマージしようとしたが、動作しているようですしません（RDD[Seq[String]]の内容が失われている）。..誰かが任意のアイデアを持っていますか？ val t1: S

0熱

2答えて

Sparkスタンドアロンクラスタはローカルファイルシステム内のファイルを読み取ることができません

2つのワーカーノードと1つのマスターノードを持つSparkスタンドアロンクラスタがあります。 spark-shellを使って、私はローカルファイルシステム上のファイルからデータを読み込んだ後、いくつかの変換を行い、最終的なRDDを/ home/outputに保存しました（言います） RDDは正常に保存されました。ワーカーノードとマスターノードで_SUCCESSファイルしか存在しませんでした。この

0熱

1答えて

作業員間のバランスのとれたRDDパーティション

RDDがx: key, y: set(values)、fileとなっています。 #values: RDD of tuples (key, val) file = values.groupByKey().mapValues(set).cache() info_file = array(file.map(lambda (x,y): len(y)).collect()) var = np.var