これらは、2つの異なる広範な質問ですが、私は試みが答えるように作っています、あなたの入力をお願いします: -
1)どのようなApache Spark SQLとMongoDBの違いは?
スパークSQLは、SQLクエリでビッグデータに対して並列コンピューティング操作を実行するためにApache Sparkによって提供されるライブラリです。 MongoDBはドキュメントストアであり、基本的にデータベースなので、コンピューティングエンジンでありストアではないSparkと比較することはできません。
2)SparkSQL、MongoDB、または組み合わせた方法を使用するには、どのような場所/シナリオ/ドメインが必要ですか?
SparkSQLは、Spark Clusterでインポートされた構造データの処理に最適です。 Mongodbは、NoSQLの機能が必要な場所で理想的です(SparkSQLと比較して、NoSQLの機能を完全に備えています)。
3)Apache SparkはmondoDB、cassandra ...のように置き換えられますか?
異なるスコープにあるため正確ではありません。 Apache Sparkは置き換えられませんが、大きなデータセットの並列計算のためにMap-reduceの後継として呼び出すことができます。
4)私はMongoDBに複数テラバイトのデータを持っているので、私はデータ分析を行い、レポートを提供する必要があります。
jdbcドライバを使用してMongoDBからデータを読み込み、データフレーム上でいくつかのSpark SQLクエリを実行し、pyplotのような他の視覚化ツールを使用してレポートを生成することができます。
ありがとう、
チャールズ。
ありがとう、Wasiq Muhammad –