hadoop

    1

    1答えて

    AlluxioネイティブJava APIを使用してalluxio設定の書き込みタイプASYNC_THROUGHにいくつかのファイルを書き込むと、HDFSクラスタに基づくalluxioクラスタが展開されます。 HDFSに書き込むのではなく、数日後には常にTO_BE_PERSISTEDの状態を維持します。

    -1

    1答えて

    通常、ビッグデータのコンテキストにおけるデータウェアハウスは、Apache Hive(右?)のようなHadoopベースのシステムに基づいて管理され、実装されます。 一方、私の質問は方法論的プロセスに関するものです。 大きなデータは、データウェアハウスの設計プロセスにどのように影響しますか? プロセスは類似しているか、新しいタスクを考慮する必要がありますか?

    -3

    1答えて

    mapreduceを使用してhadoop hdfsでテキストファイルをavrofileに変換する必要があります。 すでにhdfsにテキストファイルが置かれています。 mapreduceでの実装方法がわかりませんでした。

    0

    1答えて

    の問題(これは私がこの問題に持っていた以前の問題に関するいた議論のフォローアップである) 私はthese次の小さなHadoopクラスタを設定しますHadoopバージョン2.7.4を使用しています。クラスタは正常に動作しているようですが、私はmapreduceジョブを実行できません。特に、 17/11/27 16:35:21 INFO client.RMProxy: Connecting to Re

    1

    1答えて

    私はカンマ区切りのファイルを多くの列で取り、会社名、顧客とのやりとりの結果、何回起こったのかを調べるプロジェクトがあります。 次に、良好な相互作用に対する悪い相互作用の割合を計算する必要があります 私はHadoopとJavaを使用しています。 私は働くMapとReduceを持っています。会社名と良いやりとりの数がどれほど多いか分かります。 私の問題は、私がHadoopに良いと悪い分けを分けてもらう

    0

    1答えて

    PyHiveで実行しようとすると、q内のクエリは完全に動作します(色相、MobaXterm(SSH)、Aqua Data Studio(JDBC)正規表現の文の一部doesntの仕事:私の結果の予想age=56種類を与えるん from pyhive import hive import pandas as pd conn = hive.Connection(host="", port=100

    0

    1答えて

    ハイブテーブルにロードされているカラムの1つに、実際の値(ABC)の接尾辞のカラムに迷惑メール("~)が含まれています。したがって、この列に表示される実際の値は(ABC"~)です。 この列には、ABC(またはそのような文字列)またはNULLを含めることができます。テーブルは巨大でUpdateはオプションではありません。 私はこの列に文字列(ABC)またはNULLを含むtempテーブルを作成し、元の

    0

    1答えて

    が、私はAnonymousPairと呼ばれるこの任意WritableComparable実装を持っていると私は「コピーコンストラクタ」を使用しない場合、私はこの import com.google.common.collect.MinMaxPriorityQueue; public static class MyReducer extends Reducer<LongWritable, Ano

    0

    2答えて

    は、私は基本的にこのように書き、コードを実行しています:表2のレコードのTABLE1内のレコードの Create table abc as select A.* from table1 A Left outer join table2 B on A.col1=B.col1 and A.col2=B.col2; 番号= 7009102 番号= 1787493 私は私のスクリプトが、私

    1

    1答えて

    私のシナリオでは、ユーザーはCSVファイルをアップロードするオプションがあり、そのCSVファイルの列を定義済みのスキーマにマップできます。ユーザーマッピングに基づいてそのCSVファイルの列を並べ替え、HDFSにアップロードする必要があります。これをNIFIプロセッサ経由で実現する方法はありますか?