parquet

    1

    1答えて

    Redshift Spectrumに特定の列を読み込もうとしていますが、データが位置的に読み込まれているように見えます。つまり、列名に何を置いても問題ありません。 はのは、私がロードするデータが列A、B、私は唯一の列Bを望んCとして寄木細工に位置保存されているとしましょう、私は書く:: が、これは、より具体的にするために、 create external table spectrum.Foo(

    0

    2答えて

    私は、ディレクトリ内のs3上のいくつかのタブ区切りデータを持っていますs3://mybucket/my/directory/。 さて、私はこのようなだけファイルに読み取るために区切り文字として\tを使用したいpyspark言っています: from pyspark import SparkContext from pyspark.sql import HiveContext, SQLContex

    0

    1答えて

    私は約3500のcsvを持っています。これは、私が寄木細工に変換して日付に分割しました(このデータは7日間に渡ります)。私はすべてのファイルが1GBのように寄木細工のファイルサイズを設定したいと思います。現在、私は64から128 MBの間でさまざまなサイズのファイルが多すぎます(1日あたり400-600)。パーティション(1日あたり)のx個のファイルにパーティションを再分割することができますが、1

    0

    3答えて

    スカラーのパスのSequenceにあるファイルを読み込もうとしています。以下はサンプル(疑似)コードです: ここで、上記のシーケンスでは、いくつかのパスが存在するのに対し、いくつかのパスは存在しません。 parquetファイルを読み取っている間に、欠落しているパスを無視する方法はありますか(org.apache.spark.sql.AnalysisException: Path does not

    0

    2答えて

    スカラのいずれかでのHadoopに格納されるか、またはエラーをpyspark寄木細工のファイルを読んでいる間に発生:同じエラーに #scala var dff = spark.read.parquet("/super/important/df") org.apache.spark.sql.AnalysisException: Unable to infer schema for Pa

    0

    1答えて

    私はhdf5ファイルに約200個のグループがあります。だから私はと寄木細工のファイルにそれらを変換コード行われた各グループのために:私はそれらを読むことを試みたその後 fastparquet.write(dir_name + '/' + metricname + '.parq', groupDataFrame) を、それは私がそのエラーメッセージが表示されましたいくつかのメトリックを除き素敵取

    1

    1答えて

    私はHark on Sparkに寄木張りのファイルを読み込もうとしています。私のアブロスキームがどこにある CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS AVRO TBLPROPERTIES ('avro.schema.url'='/files/ev

    0

    1答えて

    寄木張りのファイルから特定の数の行を読み取る方法はありますか? nrowsと同様のものがfreadからdata.tableまでです。私は読めるのに時間がかかりすぎる膨大なデータを持っていますが、構造と完全性を分析したいだけです。 私の寄木細工のデータの一部の行を読む必要があり、Sparklyrの関数spark_read_parquetを使用することができないようです。

    1

    1答えて

    スパーク2.1、ETLプロセスはソースシステムからファイルをパーケットに変換し、小さなパーツをfolder1に配置します。 folder1のスパークストリーミングは正常に機能していますが、folder1のパーケットファイルはHDFSにとって小さすぎます。小さい方の寄木細工ファイルを大きなものにマージする必要がありますが、folder1からファイルを削除しようとすると、スパークストリーミングプロセス

    2

    2答えて

    こんにちは私は、寄木細工のファイルを読み書きしてS3に保存するラムダ関数が必要です。私はpyarrowを使用するために必要なライブラリと展開パッケージを作ってみましたが、私はcffiライブラリの初期化エラーを取得しています: module initialization error: [Errno 2] No such file or directory: '/var/task/__pycache_