bigdata

    1

    1答えて

    私はApache Spark初心者です。XMLファイルを読み込み、タイトルごとの単語数を数えたいと思っています。 XMLファイルは次のようになります。 <title>first title</title> <words>there are seven words in this example</words> <title>second title</title> <words>there

    0

    1答えて

    私は、読み込まれたフラットファイルで始まるデータパイプラインを設計しています。ファイルの各行は単一のレコードです。 ロードされると、各レコードが解析され、変換され、豊かになります。これは他のレコードとは独立して起こります。 最後のステップとして、いくつかのレコードのフィールドのファジーマッチングに基づいてレコードを除外したいと考えています。これを行うには、2つのレコードのすべての組み合わせを取得し

    0

    2答えて

    私はpythonの2つの関数、reduce()とfilter()について質問します。 filter()の後にreduce()を使用できますか? 私はsklearnでボストンのデータセットを使用しました。 x = load_boston() x_target = x.target xx = filter(lambda x: x > 20, x_target) これはうまくいきます。 次に、r

    0

    1答えて

    csvファイルに75のeコマース顧客アカウントデータのデータがあります。 また、別のファイルにトランザクションレコードがあります。ここで、口座番号は主キーです。すべてのアカウントの平均トランザクション数は500です。 今、私はこのデータを処理し、プロモーションオファーを提供することについて何らかの決定をしたいと思います。データ量が膨大なので、私はSparkSQLに行くことにしました。 しかし、この

    0

    3答えて

    私はしばしば、長い計算の結果として生じるnumpy配列を処理しました。計算のどこかでそれらを使う必要があります。私は現在、それらをピックルし、必要に応じてファイルを変数にアンピクルします。 大きなデータサイズ(〜1Mデータポイント)に気付きましたが、これは遅いです。私は漬け物が巨大なファイルを保管するのに最善の方法ではないことを他のところで読んでいます。私はそれらをASCIIファイルとして保存し、

    3

    1答えて

    現在、私たちはビッグテーブルクエリのパフォーマンスに複数列ファミリを使用することの影響を調査中です。列を複数の列ファミリに分割してもパフォーマンスは向上しません。誰も似たような経験をしていますか? ベンチマークの設定についてさらに詳しく説明します。現時点では、本番表の各行に約5個の列があり、それぞれには0.1〜1 KBのデータが含まれています。すべての列は1つの列ファミリに格納されます。行キー範囲

    -1

    1答えて

    私たちはPHP 7を使用しており、128 MBのRAMしか搭載していないWebサーバー上でMySQL DBを実行しています。 データセットの処理に問題があります。 簡単な説明:40.000個の製品があり、更新する必要があるかどうかを調べるために、これらの製品にデータを収集したいと考えています。 1000万のデータセットを持つ別のテーブルから特定のデータを収集するクエリには、いくつかのSUM関数が含

    1

    1答えて

    このarticleは、Hiveで複数文字の区切り文字を使用できることを示しています。 しかし、NULL値も指定できますか? は、私はエラーを返し、次のハイブのSQLを試してみました: CREATE TABLE temp (a STRING, b STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimi

    1

    1答えて

    私は、ファイルを保存するためにhadoopを設定する必要があります。テキストファイルだけでなく、画像ビデオpdfでもかまいません。また、必要に応じていつでもファイルを追加してファイルにアクセスできるWebアプリケーションがあります。 実装することはできますか?また、Webアプリケーションを開発する必要があります。ありがとうございました。

    -3

    1答えて

    ScalaまたはSparkプログラミングを使用してカフカトピックのメッセージ数をカウントする必要があります。私は両方のプログラミングに新しいので、私はどのようにそれを行うことができますか分からない。誰でもコードを手伝ったり、どのように達成することができますか?