cloudera-cdh

0熱

1答えて

最近Hadoop（Cloudera）をインストールしました。レプリケートされたブロックの下にエラーが表示されます（インストールのGUIであるCloudera Manager）。私は hdfs dfsadmin -report を実行するときに私はいくつかの理由で私のHDFSはブロックを複製しないことを意味し Configured Capacity: 555730632704 (517.56 G

0熱

1答えて

Cloudera管理サービスの自動化

私はCloudera Expressを使用しています。 Cloudera Managerのバージョンは5.12.0です。私はhdfs、hbaseのようなサービスの自動化を試みています...私は、ホストテンプレート内の各サービスの必要な情報を指定し、Cloudera Managerを使用するcurlコマンドを使用してホストテンプレートをCloudera Managerにプッシュすることでそうすること

1熱

2答えて

Cloudera Spark2のインストール

このコンポーネントをインストールするclouderaの指示に従って、私のclouderaクラスタ（評価版）にSpark2をインストールしようとしています。私は、CSDをダウンロードし、それをインストールし、小包を使用してコンポーネントをダウンロードし、それを配布するが、私はこのメッセージを抱えている、それをアクティブにしようとすると： CDH（5.8以上）SPARK2 に必要な小包（2.2 .0.

0熱

1答えて

Parquet/Kafkaへの書き込み： "dag-scheduler-event-loop"スレッドの例外java.lang.OutOfMemoryError

スパークの設定で見ているメモリ不足の問題を修正しようとしています。なぜ私がこれを見ているのかについて具体的な分析を行って結論づける。寄木細工やカフカにデータフレームを書き込むとき、私はいつもこの問題を見ています。私のデータフレームは5000行あります。これは、列Gは点で最大16メガバイトのセルサイズを持つことができ、このうち root |-- A: string (nullable =

-1熱

1答えて

Claudera Hadoopでのdatetimeの書式設定方法（m/d/yyyy h：mm AM/PM）

Cloudera Hadoopでは、datetime列のデータは2016-02-02T17:41:13.000+0000です。私はとしてフォーマットすることができます：私はm/d/yyyy h:mm AM/PMとしてフォーマットする必要が select to_date(a1.createddate) from table1; 。 2017/01/21 5:15AMとしてフォーマットするコマン

0熱

2答えて

タイムスタンプ問題がハイブで1.1

私はローカル環境では基本的に再現できないプロダクション環境（cloudera 5.5）のハイブで問題に直面しています（理由は分かりません）。つまり、いくつかのレコードのタイムスタンプ値が間違っています一時テーブルからメインテーブルに文字列 "2017-10-21 23"を挿入する際には、タイムスタンプ "2017-10-21 23:00:00"データ型に変換されます。例:: 2017-10-21

-1熱

2答えて

スパークオンパーキングとハイパースパーク（寄木張りフォーマット）

このユースケースは、幅の狭いテーブル（15フィールド）ですが、データセット全体（10億行単位）に対して大きな処理を行っています。 ENV：：私はより良いパフォーマンスを提供するものの組み合わせ疑問に思ってCDH5.8を/行ファイル（寄木細工）上スパーク（寄木細工のフォーマットとして）Hiveのテーブルに2.0 スパークスパーク特定の製品やユースケースの追加のコンテキストなし

0熱

1答えて

Trying ClientProtocolProvider：org.apache.hadoop.mapred.YarnClientProtocolProvider

私はマルチノードクラスタでmapreduceアプリケーションを実行しています。私のアプリケーションはmapreduceジョブを起動していないため、org.apache.hadoop.mapredを取得できません。クライアントプロトコルとしてのYarnClientProtocolProvider - nullプロトコルを返しました。返されたLocalClientProtocolProviderでは

1熱

1答えて

スパークヒストリーサーバーが起動していません

私の3ノードクラスタにCDH 5.4.7をインストールしました。 Sparkで最初のジョブを実行した後、アプリケーションの履歴ページを確認しました。それは、私がHDFSをチェックし/user/spark/applicationHistoryがすでにあったことが判明 Event log directory: hdfs://****:8020/user/spark/applicationHistory

0熱

2答えて

Spark on Hiveの進行状況バーが10％でスタック

最近、Spark 1.6にアップグレードし、HiveのデフォルトクエリエンジンとしてSparkQLを使用しようとしました。 HiveServer2とSpark On Yarn Serviceが有効な場合、Spark Gatewayの役割が同じマシンに追加されます。私は、次のようなクエリを実行するとただし： SET hive.execution.engine=spark; INSERT OVERW