hadoop

0熱

1答えて

どこが間違っているのかわかりませんが、HDFSからMySQLへのSqoopエクスポートコマンドは毎回失敗します。 sqoop export --connect "jdbc:mysql://quickstart.cloudera:3306/streaming" --username root --password cloudera --table pd_count --update-key id

0熱

1答えて

Apache Pigで同じリレーションの行（アイテム）をマージする方法

私はapache pigを初めて使っています。私は以下のようなデータを持っています。 tempdata = (linsys4f-PORT42-0211201516244460,dnis=3007047505) (linsys4f PORT42-0211201516244460,incoming_tfn=8778816235,tfn_location=Ashburn Avaya,ivr_lo

1熱

1答えて

Eclipseでは動作しますが、JARでは動作しないsc.TextFile（ ""）

ハーフープクラスタに入るコードを作成していますが、その前にローカルファイルでローカルにテストします。コードは、Eclipseの素晴らしい取り組んでいるが、私は（スパークLIBなどとの）SBTを持つ巨大なJARを作ってるんだと、プログラムがtextFile(path)私のコードまで働いている： import org.apache.spark.{SparkConf, SparkContext} im

0熱

1答えて

ハイブでクエリを実行中にTez頂点エラーが表示される

Tez実行エンジンを使用している間にHiveでVERTEX_FAILUREエラーが発生していると説明できますか？また、それの根本的な原因は何ですか？

0熱

1答えて

データフレーム列のリストの列の種類を変更する方法

Spark 1.6.0でDataframeの列のリストの種類を変更しようとしています。以下のためにこれを行うのいずれかの効率的な、バッチ方法はあり val castedDF = filteredDf.columns.foldLeft(filteredDf)((filteredDf, c) => filteredDf.withColumn(c, col(c).cast("String"))) ：

0熱

1答えて

HIVEテーブルへの増分sqoop

- 増分sqoopインポートスイッチは、SQOOPを介したHIVEインポートでは機能しません。しかし、その回避策は何ですか？ 1）私が作ることのできることの1つは、HIVEテーブルを作成し、SQOOPを通じてHDFSにインクリメンタルデータを持ち込み、手動でロードできることです。しかし、我々がそれをしているときは、毎回それが読み込まれ、データは上書きされます。私が間違っていれば私を修正してください

0熱

1答えて

Impalaデータソースの直接クエリモードでPower BIでSQLを使用するにはどうすればいいですか？

ダイレクトクエリモードを使用している場合、GUIを使用してクエリを編集するオプションが表示されますが、制限があります。高度なエディタが表示されますが、これはSQLではありません。 Power BI固有の構文と思われます。私はImpalaデータソースを使用しています。私が使用しようとしていますクエリは、このようなものです： SELECT *FROM database1.table1 WHERE

0熱

1答えて

Sqoop：マルチキャラクタデリミタ

ハイブテーブルの私のフィールドの1つにすべての特殊文字が含まれているので、私はMultiDelimitSerDe（〜＃）を使ってハイブフィールドを区切りました。これらのデータは、Sqoopエクスポートを使用してMy sqlにエクスポートする必要があります。そして私は複数の区切り文字でエクスポートするSqoopを見ません。他の方法はありますか？これらのフィールドには、date、bigint、dec

0熱

2答えて

Apache Hive：テーブルの特定の場所に列を追加する方法

ハイブテーブルの特定の場所に新しい列を追加したいとします。新しい列を追加すると、最後の位置に移動します。ありがとうございました

1熱

1答えて

Hadoop HDFSは適切な場所に圧縮します

したがって、hdfsの/ var/log/...には、圧縮されていないか、スナッピーで圧縮されたログファイルがたくさんあります。 .snappyで終了しない場合は、それらを圧縮して、末尾に名前を付けたいと思います。しかし、私はこれをデータの局所性で行いたいと思っています。私はハープ・ストリーミング・アプローチを試みました。 HAD=/usr/lib/hadoop $HAD/bin/hadoop