2016-09-25 20 views
2

Apache KuduとInfluxDBとを高速分析(例えばロボット工学)を必要とするIoTセンサーデータと比較するにはどうすればよいですか?Apache KuduとInfluxDBの高速分析用の時系列データ

  1. シャーディング:

    クーズー最近リリースされたv1.0のは、私は、クーズーは、以下の処理方法には、いくつかの具体的な質問がありますか?

  2. データ保持ポリシー(指定された数のデータポイントのデータを保持するか、または時間と集約/廃棄データ)
  3. ロールアップ/アグリゲーション機能(1秒間隔データを1分間隔データに変換するなど)がありますか?
  4. 継続的なクエリ(つまり、データのマテリアライズドビュー - 継続的に60秒間を表示するクエリ)がサポートされていますか?
  5. データはディスクとメモリの間にどのように格納されていますか?
  6. 不規則なイベントデータを定期的な時間間隔に変換することで、通常の時系列を誘導できますか?

KuduとInfluxDBの間には、他にも強みや弱点がありますか?

+0

プラントヒストリアンから最近導入されたTSDBまで、多くの他の実装が目的に合っているため、ショートリストは2つのデータベースのみに限定されていますか? –

+0

私は多少の完全なパッケージを探していますので、この質問を他の候補者に公開して幸いです。最初の印象からのInfluxdbはかなり良いですが、私はそれが単一のノード上でどのように拡大するかはわかりません(残念ながら、クローズドソースを作成しました)。私はOpenTSDBを非常に簡単に見ましたが、Hadoop/Hbaseクラスタを実行する上での全体的な複雑さを受け入れなければならないことに気付きました。 –

答えて

2

KuduはInfluxDBよりはるかに低いレベルのデータストアです。分散ファイルシステムのように、本格的なデータベースよりもいくつかのデータベースのような機能を提供します。現在は、Kuduに格納されているデータを検索するためのImpalaなどのクエリエンジンに依存しています。

Kuduもかなり若いです。その下に分散ストアとしてkuduを持つ時系列データベースを構築することは可能でしょうが、現在のところ、最も近い実装はthis proof of concept projectです。

ご質問の回答については、

1)クーズー格納錠剤のデータと分割データの2つの方法を提供する:どのようにRange Partitions and Hash based Partitioning

2)Nopeデータは、レンジ・パーティションで構成した場合、タブレットをドロップすることでなければならないが、効率的な動作(類似のInfluxDBデータを削除するときにシャード全体を削除します)。

3)Kuduで動作するクエリエンジンは、impalaやsparkなど、これを行うことができます。

4)インパラがあるものですviews

5)データは、しかし、クーズーの大きなセールスポイントはクーズーは、柱状のデータが可変できることである寄木細工に似柱状形式で保存されるためのいくつかのサポートを持っていません現在の寄木細工のファイルでは非常に困難です。

6)私はあなたがこれを行うためにスパークまたはインパラを得ることができると確信していますが、それは組み込みの機能ではありません。

Kuduはまだまだ新しいプロジェクトであり、実際にはInfluxDBと競合するように設計されておらず、むしろInfluxDBのようなサービスのためのスケーラビリティとパフォーマンスの高いストレージレイヤーを提供します。データ構造のような寄木細工にデータを追加する機能は、ラムダアーキテクチャの必要性を排除することができるので、本当にエキサイティングです。

関連する問題