mapreduce

-1熱

1答えて

入力ファイルがある場合の量：1,1,2,2,3,4,4,4,5,5,5,5,6,6,6、その後のMapReduceの出力は、（一意の整数{1,2,3,4,5,6}の組の、すなわち大きさ）であるべきです。私は上記を実装するのに助けが必要です。私はmap()にヌル値とヌル値をそれぞれ出すことで重複を除外し、同様にキーとヌル値をreduce()に出力して結果ファイル/ consoleに出力できることを

0熱

1答えて

MahoutのXmlInputFormatはgzip圧縮ファイルを書き換えずに処理しますか？

MahoutのXmlInputFormatは、そのメソッドをオーバーライドせずにgzippedデータを処理できますか？私はgzipされたwikipedia xmlデータを解析しようとしていますが、これまでのところ成功していません。 Hadoopはgzipファイルを自動的に処理できると聞いてきましたが、これはTextInputFormatクラスに含まれているか、他の入力フォーマットに固有で、Maho

0熱

1答えて

SailfishバージョンのHadoopをコンピュータに実装するにはどうすればよいですか？

Sailfishは、通常のHadoopより効率的なHadoopのバージョンです。私は、次のGithubリポジトリからこのバージョンのHadoopを実装する方法について混乱しています：https://github.com/sriramsrao/sailfish。

1熱

2答えて

多次元配列を減らす

私は現在、多次元配列を平坦化するための関数をマップし、縮小しようとしています。これはモック例データセットである： data.map(sort => sort.data.reduce((a,b) => a.weight + b.weight)); しかし、私が代わりに月単位で削減したい：私はマップ-減らすために、私が使用することができ、ソート番号順に知っ data: [ {

0熱

1答えて

どのようにhadoop Iを設定するか1つのサーバーで同時に最大のタスクをマップする

パラメータmapreduce.tasktracker.map.tasks.maximum=2を使用して、同時に1つのノードで2つのマッパーしか動作しないように制御しました。しかし、私はそれを設定した後、それは有効ではなかった、私は19マッパーが1つのノードで同時に実行されていたことが分かりました。他のパラメータがそれをオーバーライドしています。

0熱

1答えて

Hiveで返されるすべてのレコードに定数値を動的に追加する方法はありますか？

Hive v1.2.1で次のクエリを実行したいところです。field_3が別のテーブルから照会されています。返されたすべてのレコードに対して select user_id, start_date, field_3 as stop_date from some_table; 、field_3の値が同じです。問題は、それが別のテーブルに格納されていることです。その価値を得るために、私は以下のよう

0熱

1答えて

ラップされたタイプはHadoopでどのように機能しますか？

私はJavaの専門家ではありませんが、私はJavaの基礎を理解しています。常に理解できるようにJavaコードを常に深く理解しようとしています。それは本当にばかげた疑いかもしれませんが、私の心の中でそれを明確に理解するのが大好きです。私の疑問はJavaに関するものなので、私はJavaコミュニティに投稿しています。私はhadoopを使って作業していますが、hadoopは独自の型を使用しています。

0熱

2答えて

Hadoopの減速カスタム書き込み可能

私は私のデータセットは以下の形式である public class CompanyMinMaxReducer extends Reducer<Text, DateClosePair, Text, Text> { private Text rText = new Text(); public void reduce(Text key, Iterable<DateClosePair> va

0熱

1答えて

Pythonでマッパー関数を作成する

各行の単語をカウントする行を読み込んだマッパーを作成し、それらの単語数の（キー、値）の組を返します。私は def file_mapper(filename)

0熱

2答えて

ジョブメモリの予約を終了する

hadoopジョブを実行しましたが、そのアプリケーションのメモリとCPUの使用量をどのように取得できますか？私はログとリソースマネージャのWebページでそれを見てきましたが、私はそれを得ていませんでした。 RM UIでジョブの下にカウンタが見つかりません。可能ですか？ジョブの実行ごとに、またはアプリケーションごとに取得することはできますか？また、ノード使用量または合計使用量ごとに取得できますか？