hdfs

0熱

1答えて

3ノードクラスタがあります。各ノードには20コアと100GBのメモリがあります。動的リソース割り当てがtrueに設定されています。私の希望に応じてリソースを微調整したい。例えば：のみ1コアを使用します。デフォルトでは、4-6コアが選択されています。私はspark-submitを実行するたびにこの値を設定します。私の要求をどのように達成できますか？

0熱

1答えて

Hadoopレプリケーションファクタは3です。どのくらいのデータが格納されていますか？

Hadoopの業界標準レプリケーションファクタは3です。つまり、100GBのデータがある場合、HDFSでは300GBとして保存されますか？

0熱

1答えて

Hadoop FTPFileSystem.listStatus（パスパス）が機能しないのはなぜですか？

ファイルをftpサーバからhdfsに転送したい。次のようにFTP TO HDFS、デモコード：私はこの方法を試してみました Configuration conf = new Configuration(); FTPFileSystem ftpfs = new FTPFileSystem(); ftpfs.setConf(conf); ftpfs.initialize(

0熱

1答えて

Hadoopのネームスペースとメタデータの違いは？

私はhadoopを学んでいますが、勉強している間に2つの用語の1つと名前空間が混同され、2つ目はメタデータです。これまでメタデータについて学んだことは、メタデータはnamenodeサーバーの一部です。 HDFS、レプリケーションファクタ、データノードのデータブロック、ファイルアクセス権などのファイルに関するすべての情報。このメタデータはfsimageというファイルに格納されます。間違っていると私

0熱

1答えて

Hadoopの特定のラックからレポートをブロックするにはどうすればよいですか？

hadoopの1つのラックからだけブロックレポートを取得することが可能かどうか疑問に思っていますか？私は、次のコマンドを使用して、ブロック全体のレポートを取得することができます知っている： hdfs fsck/-files -blocks -racks クラスタが大きい場合しかし、それはコマンドを実行するために多くの時間を要します。特定のラックにあるブロックだけを見たいと思っています。 1つ

1熱

1答えて

スパーク・ジョブからハード・ディスクを直接読み書きできますか？

スパークジョブの出力をhdfsに書き込んでそこからダウンロードする必要がありますか？あるいは、ローカルのファイルシステムに直接書き込むこともできます。

3熱

2答えて

豚にUDFを作成して別のフィールドと列を分類する方法

ブタのUDFを使用して他の列に対して1つの列を分類したいと考えています。私は Id,name,age 1,jhon,31 2,adi,15 3,sam,25 4,lina,28 の予想される出力 1,jhon,31,30-35 2,adi,15,10-15 3,sam,25,20-25 4,lina,28,25-30 を持ってデータは、あなたがUDFせずにこれを行うことがで

0熱

1答えて

HDFSはブロックを複製しません

最近Hadoop（Cloudera）をインストールしました。レプリケートされたブロックの下にエラーが表示されます（インストールのGUIであるCloudera Manager）。私は hdfs dfsadmin -report を実行するときに私はいくつかの理由で私のHDFSはブロックを複製しないことを意味し Configured Capacity: 555730632704 (517.56 G

0熱

1答えて

SpyderからHDFSファイルをロードしようとすると接続が拒否される

私はSpyderという名前のPython IDEでApache SPARKとPython（pyspark）を使用しています。私はこのようなHDFSからファイルをロードしようとしています： hdfs_file = sc.textFile(hdfs_path) を私はパスが正しく、ファイルが存在することを確認し、私はコマンドを実行するとき、私は次のエラーの行を取得する： Py4JJavaError

0熱

1答えて

FlumeのKafkaからのEOFException

コンソールKafkaプロデューサからHadoopファイルシステム（HDFS）への簡単なデータパイプラインを設定しようとしています。私は64ビットUbuntu仮想マシンに取り組んでおり、HadoopとKafkaの両方に別々のユーザーを作成しています。 Kafkaで生産された入力を消費者コンソールで消費し、HDFSが稼働しているようです。ここで、Flumeを使用して入力をHDFSにパイプしたいとしま