mapreduce

    1

    1答えて

    私はカンマ区切りのファイルを多くの列で取り、会社名、顧客とのやりとりの結果、何回起こったのかを調べるプロジェクトがあります。 次に、良好な相互作用に対する悪い相互作用の割合を計算する必要があります 私はHadoopとJavaを使用しています。 私は働くMapとReduceを持っています。会社名と良いやりとりの数がどれほど多いか分かります。 私の問題は、私がHadoopに良いと悪い分けを分けてもらう

    0

    1答えて

    が、私はAnonymousPairと呼ばれるこの任意WritableComparable実装を持っていると私は「コピーコンストラクタ」を使用しない場合、私はこの import com.google.common.collect.MinMaxPriorityQueue; public static class MyReducer extends Reducer<LongWritable, Ano

    0

    2答えて

    は、私は基本的にこのように書き、コードを実行しています:表2のレコードのTABLE1内のレコードの Create table abc as select A.* from table1 A Left outer join table2 B on A.col1=B.col1 and A.col2=B.col2; 番号= 7009102 番号= 1787493 私は私のスクリプトが、私

    0

    1答えて

    Cloudantのmap reduce機能を使用していて、特定のユーザー(ユーザーからの入力)が参加したイベント(イベントオブジェクトの数)日付範囲(ユーザーからの入力)です。 私は以下のようなドキュメントを持っています。 { user: { name: 'peter pan' }, startEventDateTime: <timestamp>, endDateDateTime

    0

    1答えて

    私はフォーマットのデータセットを持って、 student_id|name|subject|marks 2 John English 50 3 mark Maths 50 3 mark English 50 このデータはHDFSにロードされ、私がどうなるか、豚を使用して、各学生のための全被験者の平均値を計算する必要がありますこれを行うための豚の方法論。学生によって

    0

    1答えて

    pysparkのmapPartitions()に渡す関数内でprintステートメントを使用してコードをデバッグできないという問題をどのように処理できますか? は例を考えてみましょう:FUNCインサイド def func(kv_iterator): for key, value in iterator: #do fancy stuff print('This pri

    0

    1答えて

    Apache Hadoopで、与えられた入力ファイルの素数の平均合計を数えるmapreduceプログラムを実行しようとしています。 これは私のマッパー import sys for word in sys.stdin: print(word) であると私は、次のコマンドでそれを実行すると、これは、今リデューサー import sys primes = [] for word i

    2

    1答えて

    私はストリームの初心者です、map、reduce、およびfilterです。 私はCassandraテーブルから3つのフィールドvehicleType,noOfVehiclesおよびtaxPerParticularVehicleTypeを含む行のリストを取得しています。 これらの3つのトリプレットのセットを用意して、特定のタイプの車両の番号を追加する必要がありますが、トリプルには特定の車両タイプの税

    0

    1答えて

    一部のブログでは、mapreduceが集約よりも遅いと言われています。だから、どちらを使うのが理想ですか?

    4

    2答えて

    私は(completing #(reduced %2))の代わりfirst座っていませんを書く (transduce (comp (map ...) (filter ...)) (completing #(reduced %2)) nil init) のようなものになってしまいますトランスデューサーを使用するコードにこれを変換する場合、私は多くの場合、フォーム (->> init (