parquet

1熱

1答えて

寄木張りでフォーマットされた特定の列をRedshiftスペクトルにロードするにはどうすればよいですか？

Redshift Spectrumに特定の列を読み込もうとしていますが、データが位置的に読み込まれているように見えます。つまり、列名に何を置いても問題ありません。はのは、私がロードするデータが列A、B、私は唯一の列Bを望んCとして寄木細工に位置保存されているとしましょう、私は書く：：が、これは、より具体的にするために、 create external table spectrum.Foo(

0熱

2答えて

pysparkのs3の表形式データを読むには？

私は、ディレクトリ内のs3上のいくつかのタブ区切りデータを持っていますs3://mybucket/my/directory/。さて、私はこのようなだけファイルに読み取るために区切り文字として\tを使用したいpyspark言っています： from pyspark import SparkContext from pyspark.sql import HiveContext, SQLContex

0熱

1答えて

Azure HDInsightのSparkで寄木ブロックサイズを設定するには？

私は約3500のcsvを持っています。これは、私が寄木細工に変換して日付に分割しました（このデータは7日間に渡ります）。私はすべてのファイルが1GBのように寄木細工のファイルサイズを設定したいと思います。現在、私は64から128 MBの間でさまざまなサイズのファイルが多すぎます（1日あたり400-600）。パーティション（1日あたり）のx個のファイルにパーティションを再分割することができますが、1

0熱

3答えて

スパーク：パスが存在する場合のみファイルを読み込みます。

スカラーのパスのSequenceにあるファイルを読み込もうとしています。以下はサンプル（疑似）コードです：ここで、上記のシーケンスでは、いくつかのパスが存在するのに対し、いくつかのパスは存在しません。 parquetファイルを読み取っている間に、欠落しているパスを無視する方法はありますか（org.apache.spark.sql.AnalysisException: Path does not

0熱

2答えて

pysparkで寄木細工ファイルを読み込んでいるときにスキーマを指定するにはどうすればよいですか？

スカラのいずれかでのHadoopに格納されるか、またはエラーをpyspark寄木細工のファイルを読んでいる間に発生：同じエラーに #scala var dff = spark.read.parquet("/super/important/df") org.apache.spark.sql.AnalysisException: Unable to infer schema for Pa

0熱

1答えて

PySpark - 寄木張り - None.Noneを呼び出すときにエラーが発生しました

私はhdf5ファイルに約200個のグループがあります。だから私はと寄木細工のファイルにそれらを変換コード行われた各グループのために：私はそれらを読むことを試みたその後 fastparquet.write(dir_name + '/' + metricname + '.parq', groupDataFrame) を、それは私がそのエラーメッセージが表示されましたいくつかのメトリックを除き素敵取

1熱

1答えて

スパークのハイブ。寄木細工のファイルを読む

私はHark on Sparkに寄木張りのファイルを読み込もうとしています。私のアブロスキームがどこにある CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS AVRO TBLPROPERTIES ('avro.schema.url'='/files/ev

0熱

1答えて

R - 寄木細工のファイルの一部を読み取る

寄木張りのファイルから特定の数の行を読み取る方法はありますか？ nrowsと同様のものがfreadからdata.tableまでです。私は読めるのに時間がかかりすぎる膨大なデータを持っていますが、構造と完全性を分析したいだけです。私の寄木細工のデータの一部の行を読む必要があり、Sparklyrの関数spark_read_parquetを使用することができないようです。

1熱

1答えて

Spark Streamingフォルダからファイルを削除することはできますか？

スパーク2.1、ETLプロセスはソースシステムからファイルをパーケットに変換し、小さなパーツをfolder1に配置します。 folder1のスパークストリーミングは正常に機能していますが、folder1のパーケットファイルはHDFSにとって小さすぎます。小さい方の寄木細工ファイルを大きなものにマージする必要がありますが、folder1からファイルを削除しようとすると、スパークストリーミングプロセス

2熱

2答えて

AWS Lambdaでパーケットファイルを読み書きする？

こんにちは私は、寄木細工のファイルを読み書きしてS3に保存するラムダ関数が必要です。私はpyarrowを使用するために必要なライブラリと展開パッケージを作ってみましたが、私はcffiライブラリの初期化エラーを取得しています： module initialization error: [Errno 2] No such file or directory: '/var/task/__pycache_