hdfs

    0

    1答えて

    3ノードクラスタがあります。各ノードには20コアと100GBのメモリがあります。動的リソース割り当てがtrueに設定されています。 私の希望に応じてリソースを微調整したい。例えば : ​​のみ1コアを使用します。デフォルトでは、4-6コアが選択されています。 私はspark-submitを実行するたびにこの値を設定します。 私の要求をどのように達成できますか?

    0

    1答えて

    Hadoopの業界標準レプリケーションファクタは3です。つまり、100GBのデータがある場合、HDFSでは300GBとして保存されますか?

    0

    1答えて

    ファイルをftpサーバからhdfsに転送したい。次のようにFTP TO HDFS、デモコード:私はこの方法を試してみました Configuration conf = new Configuration(); FTPFileSystem ftpfs = new FTPFileSystem(); ftpfs.setConf(conf); ftpfs.initialize(

    0

    1答えて

    私はhadoopを学んでいますが、勉強している間に2つの用語の1つと名前空間が混同され、2つ目はメタデータです。 これまでメタデータについて学んだことは、メタデータはnamenodeサーバーの一部です。 HDFS、レプリケーションファクタ、データノードのデータブロック、ファイルアクセス権などのファイルに関するすべての情報。このメタデータはfsimageというファイルに格納されます。間違っていると私

    0

    1答えて

    hadoopの1つのラックからだけブロックレポートを取得することが可能かどうか疑問に思っていますか? 私は、次のコマンドを使用して、ブロック全体のレポートを取得することができます知っている: hdfs fsck/-files -blocks -racks クラスタが大きい場合しかし、それはコマンドを実行するために多くの時間を要します。特定のラックにあるブロックだけを見たいと思っています。 1つ

    1

    1答えて

    スパークジョブの出力をhdfsに書き込んでそこからダウンロードする必要がありますか?あるいは、ローカルのファイルシステムに直接書き込むこともできます。

    3

    2答えて

    ブタのUDFを使用して他の列に対して1つの列を分類したいと考えています。私は Id,name,age 1,jhon,31 2,adi,15 3,sam,25 4,lina,28 の予想される出力 1,jhon,31,30-35 2,adi,15,10-15 3,sam,25,20-25 4,lina,28,25-30 を持って データは、あなたがUDFせずにこれを行うことがで

    0

    1答えて

    最近Hadoop(Cloudera)をインストールしました。レプリケートされたブロックの下にエラーが表示されます(インストールのGUIであるCloudera Manager)。私は hdfs dfsadmin -report を実行するときに私はいくつかの理由で私のHDFSはブロックを複製しないことを意味し Configured Capacity: 555730632704 (517.56 G

    0

    1答えて

    私はSpyderという名前のPython IDEでApache SPARKとPython(pyspark)を使用しています。私はこのようなHDFSからファイルをロードしようとしています: hdfs_file = sc.textFile(hdfs_path) を私はパスが正しく、ファイルが存在することを確認し、私はコマンドを実行するとき、私は次のエラーの行を取得する: Py4JJavaError

    0

    1答えて

    コンソールKafkaプロデューサからHadoopファイルシステム(HDFS)への簡単なデータパイプラインを設定しようとしています。私は64ビットUbuntu仮想マシンに取り組んでおり、HadoopとKafkaの両方に別々のユーザーを作成しています。 Kafkaで生産された入力を消費者コンソールで消費し、HDFSが稼働しているようです。 ここで、Flumeを使用して入力をHDFSにパイプしたいとしま