mapreduce

    4

    2答えて

    Wikipediaの記事は、擬似コードを提供し、その少し混乱し、私はいくつかの適切なコードを見てみたいけれども、私は一般シーケンシャルパターンアルゴリズム(GSP)http://en.wikipedia.org/wiki/GSP_Algorithm の実装例を探しています(理想的にはPythonまたはJava)。誰も良いリファレンスを知っていますか? 私はアルゴリズムを最初に理解してから、MapR

    2

    2答えて

    マップ/リダクションが使用しているデータノードがダウンするとどうなりますか?ジョブを別のデータノードにリダイレクトする必要はありませんか?私のコードはこの例外条件をどのように処理すべきですか?

    3

    3答えて

    オブジェクト。 HBaseのは、私たちのイベントデータが含まれています。キーはeventId + timeです。私たちは、日付範囲の間にいくつかのイベントタイプ(4-5)について分析を実行したいと考えています。イベントタイプの総数は約1000 HBaseのテーブルの上のMapReduceジョブを実行している問題は、initTableMapperJob(下記参照)のみ1スキャンの対象を取ることです。

    3

    1答えて

    言い換えれば、 マップリダクションジョブを直接定義することで解決できる問題はありますか?ハイブQLクエリを作成できませんか? 「はい」の場合は、ハイブQLの表現力が制限されている可能性があり、すべてのマップ削減ジョブを表すことができません。 実際には、Hive QLは独自のマップリダクションジョブを完全に置き換えるものではありません。

    1

    3答えて

    私は効率的に解決する方法がわからないという問題があります。私は(それぞれの日のための多くの文書があることができ、毎日のためにnumber_of_hitsの合計を取得する必要があり stats = { 'day': '', 'total_number_of_hits': 0 'user_id': 0 ... some other stuff }

    1

    1答えて

    私たちはマザーにファイル群を読み込む必要があるので、非Hadoop環境の 環境では、それぞれとfile=open(path, mode)を使用して、それぞれのファイルを で読み込みます。私はHadoopStreamingが ファイル出力する減速機のマッパーとCONVER標準出力の標準入力に ファイル入力を変換することを読んで しかし、Hadoopの環境では、私は約いくつかの質問を持っているかへの入

    0

    1答えて

    の地図機能の日時を放ちマイマップ機能は、次のようになります。 { "TimeStamp" : "Mon Mar 01 2010 11:58:09 GMT+0000 (BST)", ...} 私は「日が必要です。 map = function() { day = Date.UTC(this.TimeStamp.getFullYear(), this.TimeStamp.getMont

    0

    2答えて

    私は、おおよそ次の処理を行い、並列アルゴリズム、に取り組んでいます: は10Kの単語の合計で数テキスト文書をお読みください。 テキストコーパスのすべての単語のオブジェクトを作成します。 すべての単語オブジェクト間にペアを作成します(yes、O(n))。最も頻繁なペアを返します。 Iは最初の1000拳マシン上残りのワードは、オブジェクト間の次のマシン上に、第二千ワードオブジェクトのペアを作成すること

    4

    2答えて

    私は現在、研究者が50ノードクラスタで4ヶ月かかると科学計算プロジェクト(確率的なトラクトグラフィー手法described here)が実行されていると聞いて、他のオプションを調べる。プロジェクトは現在、並列Pythonを使用して4Dアレイのチャンクをさまざまなクラスタノードに配信し、処理されたチャンクをまとめて戻します。 私が現在取り組んでいる仕事は、あまりにも粗すぎる(5秒から10分、並列のP

    0

    2答えて

    私はHadoopストリーミング用の2つのプログラムを持っています。もちろん mapper (produces <k, v> pair) reducer 、<k, v>対はstdoutに放出されます。 私の質問は<k, v>でvが非常に大きい場合、それは効率的にHadoop上で実行しない のですか? マッパーが発行するvは1G以上(時には4G以上)になると思います。