hadoop

1熱

1答えて

なぜAlluxioファイルが常にTO_BE_PERSISTEDの状態を維持するのですか

AlluxioネイティブJava APIを使用してalluxio設定の書き込みタイプASYNC_THROUGHにいくつかのファイルを書き込むと、HDFSクラスタに基づくalluxioクラスタが展開されます。 HDFSに書き込むのではなく、数日後には常にTO_BE_PERSISTEDの状態を維持します。

-1熱

1答えて

ビッグデータウェアハウスと従来のデータウェアハウスの違い

通常、ビッグデータのコンテキストにおけるデータウェアハウスは、Apache Hive（右？）のようなHadoopベースのシステムに基づいて管理され、実装されます。一方、私の質問は方法論的プロセスに関するものです。大きなデータは、データウェアハウスの設計プロセスにどのように影響しますか？プロセスは類似しているか、新しいタスクを考慮する必要がありますか？

-3熱

1答えて

Mapreduceを使用してhadoopのAvrofileへのテキストファイル

mapreduceを使用してhadoop hdfsでテキストファイルをavrofileに変換する必要があります。すでにhdfsにテキストファイルが置かれています。 mapreduceでの実装方法がわかりませんでした。

0熱

1答えて

Hadoopクラスタは、マップを実行していないジョブを減らす - スケジューラ

の問題（これは私がこの問題に持っていた以前の問題に関するいた議論のフォローアップである）私はthese次の小さなHadoopクラスタを設定しますHadoopバージョン2.7.4を使用しています。クラスタは正常に動作しているようですが、私はmapreduceジョブを実行できません。特に、 17/11/27 16:35:21 INFO client.RMProxy: Connecting to Re

1熱

1答えて

Hadoopでパーセンテージを取得する

私はカンマ区切りのファイルを多くの列で取り、会社名、顧客とのやりとりの結果、何回起こったのかを調べるプロジェクトがあります。次に、良好な相互作用に対する悪い相互作用の割合を計算する必要があります私はHadoopとJavaを使用しています。私は働くMapとReduceを持っています。会社名と良いやりとりの数がどれほど多いか分かります。私の問題は、私がHadoopに良いと悪い分けを分けてもらう

0熱

1答えて

Pythonを使用するとHiveクエリが空白になりますが、直接クエリを実行しても問題は発生しません。

PyHiveで実行しようとすると、q内のクエリは完全に動作します（色相、MobaXterm（SSH）、Aqua Data Studio（JDBC）正規表現の文の一部doesntの仕事：私の結果の予想age=56種類を与えるん from pyhive import hive import pandas as pd conn = hive.Connection(host="", port=100

0熱

1答えて

ハイブのカラムの特定の迷惑メール文字を置き換えます。

ハイブテーブルにロードされているカラムの1つに、実際の値（ABC）の接尾辞のカラムに迷惑メール（"~）が含まれています。したがって、この列に表示される実際の値は（ABC"~）です。この列には、ABC（またはそのような文字列）またはNULLを含めることができます。テーブルは巨大でUpdateはオプションではありません。私はこの列に文字列（ABC）またはNULLを含むtempテーブルを作成し、元の

0熱

1答えて

MapReduceのリデューサ値をコピーする必要があります。 MapReduceのアプリケーションで

が、私はAnonymousPairと呼ばれるこの任意WritableComparable実装を持っていると私は「コピーコンストラクタ」を使用しない場合、私はこの import com.google.common.collect.MinMaxPriorityQueue; public static class MyReducer extends Reducer<LongWritable, Ano

0熱

2答えて

ハイブの参加に時間がかかりすぎるのはなぜですか？

は、私は基本的にこのように書き、コードを実行しています：表2のレコードのTABLE1内のレコードの Create table abc as select A.* from table1 A Left outer join table2 B on A.col1=B.col1 and A.col2=B.col2; 番号= 7009102 番号= 1787493 私は私のスクリプトが、私

1熱

1答えて

apache NIFIプロセッサを使用してCSV列を並べ替える方法は？

私のシナリオでは、ユーザーはCSVファイルをアップロードするオプションがあり、そのCSVファイルの列を定義済みのスキーマにマップできます。ユーザーマッピングに基づいてそのCSVファイルの列を並べ替え、HDFSにアップロードする必要があります。これをNIFIプロセッサ経由で実現する方法はありますか？