rdd

0熱

1答えて

Sparkのタスクの数は、ステージの始めにRDDパーティションの総数によって決まります。たとえば、SparkアプリケーションがHDFSからデータを読み取っている場合、Hadoop RDDのパーティションメソッドはMapReduceのFileInputFormatから継承され、HDFSブロックのサイズ、mapred.min.split.sizeの値および圧縮方法などの影響を受けます。スクリーンショ

0熱

1答えて

一般的なクロールからRDDにダウンロードされたwarc.gzファイルを変換する

私はwarc.gzファイルを一般的なクロールからダウンロードしたため、sparkを使用して処理する必要があります。ファイルをRDDにどのように変換できますか？ sc.textFile("filepath")は役に立たないようです。 rdd.take(1)が印刷されると、それは私に[u'WARC/1.0']を与えますが、それは私にレコード全体を与えていたはずです。どのようにしてファイルを処理可能なr

1熱

1答えて

2つのrddの結合の結果はどうなりますか？

clickRddの要素は(h5id,[query])です。ここで、h5idは長い番号で、クエリは文字列です。 revealRddの要素は(h5id, [0:id, 1:query, 2:q0, 3:q1, 4:q2, 5:q3, 6:s0, 7:s1, 8:s2, 9:s3]). で、clickJoin = clickRdd.join(revealRdd)の結果は何ですか、私は結合キーがh5idだ

0熱

1答えて

JDBC ResultSetをSpark RDD/DataFrameに変換する

私はJDBC ResultSetをSpark RDDに変換しようとしていて、Sparkの並列処理機能を使用して効率的な方法を探していました。以下 iは https://stackoverflow.com/a/32073423/6064131このあたりとして val rs:ResultSet = stmt .getResultSet val colCount = rs.getMetaData.ge

0熱

2答えて

RDD変換およびアクション

RDDに変換を行っているが、例えば： - firstRDD=spark.textFile("hdfs://...") secondRDD=firstRDD.filter(someFunction); thirdRDD = secondRDD.map(someFunction); は第一、第二及び第三のRDDはRAMの値を格納しないか、我々はresult = thirdRDD.count

1熱

1答えて

スパーク/スカラ：RDDのみ</p> <p>私はRDDを使用して唯一の入れ子構造を作成したい使用してReduceByKeyを使用して入れ子構造の作成：RDDのみ

スパーク/ Scalaは使用してReduceByKeyを使用して入れ子構造を作成します。私は巨大なデータに対してはうまく機能しないgroupBy関数を使ってこれを行うことができます。ですから、reduceByKeyを使ってやりたいのですが、私が望むものを得ることができません。どんな助けもありがとう。入力データ： val sales=sc.parallelize(List( ("West"

1熱

1答えて

pysparkでString型の日付をIntに変換する

私はこのようなデータセットを持っています： item_nbr |日付 123 | 2016-09-23 123 | 2016-10-23 112 | 2016-08-15 112 | 2016年9月15日私はそれはこのように見えるようにgroupByKeyを使用： '123'、[ '2016年9月23日'、 '2016年10月23日'] '112'、[ '2016- 08-15 '、' 2016

0熱

1答えて

Hbaseへの一括挿入：ConsumerRecordはシリアライズ不可能

レコードのトピックをポーリングし、consumerRecords: ConsumerRecords[String, String]として保存するKafkaクライアントがあります。各レコードを繰り返し処理し、(offset, value)を(k, v)としてHbaseテーブルに書きたいと思います。これらのレコードをSparkで並列化しようとしていますので、Hbaseに一括挿入するためにRDDにマップ

1熱

1答えて

Spark DataSetを使用したマップ値の集計マップ

私はSpark DataSetを使用して処理したい次のマップ形式のcassandraに列車を持っています。だから、私はモデルの値を2つのカテゴリーの保険料（City and Duster）対ノンプレミアム（Alto K10, Aspire, Nano and i10）にバケットしたいと思います。プレミアムとノンプレミアムの値の最終的な数は2（CityとDuster） Alto K10, Aspir

0熱

1答えて

RDDを集約して組み合わせる正しい方法

私は顧客ごとにいくつかのプロセスに関する情報をホストする顧客テーブルを持っています。目的は、顧客とプロセスごとに機能を抽出することです。つまり、すべてのフィーチャは、.groupby(customerID, processID)オブジェクトの集計または並べ替え比較の計算になります。ただし、時間の経過とともにますます多くの機能を追加できるようにすることが目標です。したがって、基本的に、ユーザーは