rdd

    0

    1答えて

    Sparkのタスクの数は、ステージの始めにRDDパーティションの総数によって決まります。たとえば、SparkアプリケーションがHDFSからデータを読み取っている場合、Hadoop RDDのパーティションメソッドはMapReduceのFileInputFormatから継承され、HDFSブロックのサイズ、mapred.min.split.sizeの値および圧縮方法などの影響を受けます。 スクリーンショ

    0

    1答えて

    私はwarc.gzファイルを一般的なクロールからダウンロードしたため、sparkを使用して処理する必要があります。ファイルをRDDにどのように変換できますか? sc.textFile("filepath")は役に立たないようです。 rdd.take(1)が印刷されると、それは私に[u'WARC/1.0']を与えますが、それは私にレコード全体を与えていたはずです。どのようにしてファイルを処理可能なr

    1

    1答えて

    clickRddの要素は(h5id,[query])です。ここで、h5idは長い番号で、クエリは文字列です。 revealRddの要素は(h5id, [0:id, 1:query, 2:q0, 3:q1, 4:q2, 5:q3, 6:s0, 7:s1, 8:s2, 9:s3]). で、clickJoin = clickRdd.join(revealRdd)の結果は何ですか、私は結合キーがh5idだ

    0

    1答えて

    私はJDBC ResultSetをSpark RDDに変換しようとしていて、Sparkの並列処理機能を使用して効率的な方法を探していました。以下 iは https://stackoverflow.com/a/32073423/6064131このあたりとして val rs:ResultSet = stmt .getResultSet val colCount = rs.getMetaData.ge

    0

    2答えて

    RDDに変換を行っているが、例えば: - firstRDD=spark.textFile("hdfs://...") secondRDD=firstRDD.filter(someFunction); thirdRDD = secondRDD.map(someFunction); は第一、第二及び第三のRDDはRAMの値を格納しないか、我々はresult = thirdRDD.count

    1

    1答えて

    スパーク/ Scalaは使用してReduceByKeyを使用して入れ子構造を作成します。私は巨大なデータに対してはうまく機能しないgroupBy関数を使ってこれを行うことができます。ですから、reduceByKeyを使ってやりたいのですが、私が望むものを得ることができません。どんな助けもありがとう。 入力データ: val sales=sc.parallelize(List( ("West"

    1

    1答えて

    私はこのようなデータセットを持っています: item_nbr |日付 123 | 2016-09-23 123 | 2016-10-23 112 | 2016-08-15 112 | 2016年9月15日私はそれはこのように見えるようにgroupByKeyを使用 : '123'、[ '2016年9月23日'、 '2016年10月23日'] '112'、[ '2016- 08-15 '、' 2016

    0

    1答えて

    レコードのトピックをポーリングし、consumerRecords: ConsumerRecords[String, String]として保存するKafkaクライアントがあります。各レコードを繰り返し処理し、(offset, value)を(k, v)としてHbaseテーブルに書きたいと思います。これらのレコードをSparkで並列化しようとしていますので、Hbaseに一括挿入するためにRDDにマップ

    1

    1答えて

    私はSpark DataSetを使用して処理したい次のマップ形式のcassandraに列車を持っています。だから、私はモデルの値を2つのカテゴリーの保険料(City and Duster)対ノンプレミアム(Alto K10, Aspire, Nano and i10)にバケットしたいと思います。プレミアムとノンプレミアムの値の最終的な数は2(CityとDuster) Alto K10, Aspir

    0

    1答えて

    私は顧客ごとにいくつかのプロセスに関する情報をホストする顧客テーブルを持っています。 目的は、顧客とプロセスごとに機能を抽出することです。つまり、すべてのフィーチャは、.groupby(customerID, processID)オブジェクトの集計または並べ替え比較の計算になります。 ただし、時間の経過とともにますます多くの機能を追加できるようにすることが目標です。したがって、基本的に、ユーザーは