Druid/Cassandraのデータベースに100万行+秒を挿入する

1秒間に800万行程度の膨大なデータがあります。各行には12個の数値（タイムスタンプ、整数、浮動小数点数がありますが、テキストはありません）があります。ストリーミングインサートを探していますが、速度を達成できるのであればバルクインサートで管理できます。Druid/Cassandraのデータベースに100万行+秒を挿入する

クエリ：クエリは基本的に集計です。

私はドルイドを見ましたが、私たちにとって絶対に必要なナノ秒のタイムスタンプはサポートしていません。誰もこの制限をうまく回避しましたか？

カサンドラに100万回/秒の挿入に成功した人はいますか？どんな種類のクラスタが必要ですか？

必要に応じて、より具体的な情報を提供することができます。

出典

2017-01-30 user1471299

投票ツールの勧告を求めて、閉じるには、「オフトピック」と考えられます。 – Aaron

これを編集して、同じ投稿内の各DBMSに関する質問をすることはできますか？ – user1471299

編集されました@Aaron。 – user1471299

私は、高性能な時間のためにkdb +（Kx Systemsから）を調べることをお勧めします。シリーズの摂取とCEP。そのタイムスタンプのナノ秒単位の粒度。

最近のインダストリアルIoTアプリケーションでは、1つの控えめなサーバー（2つのコア）で、kdb +は、CPU使用率が低くても毎秒450万イベントの持続的な（7x24x365）摂取率を維持しました。私たちはkdb +のメモリ内データベースを使用し、ディスク上のデータベースへの書き込みを頻繁に行っていました。クラスタは必要ありませんでした。

kdb+

出典

2017-01-30 15:47:14 notlightnorchroma

こんにちは、提案に感謝します。私はkdbを見てきました。私が正しく理解すれば、DB全体がメモリに保存されます。メモリ内ではなくオンディスク上のデータをクエリするときのkdbの経験は何ですか？また、1秒あたり450万イベントの場合、1つのノードでディスク領域が不足することはありませんか？ – user1471299

kdb +にはメモリ内およびディスク上のデータベースがあり、両方とも同じq-sql srciptを使用して照会できます。ディスク上のデータベース（多くの場合、履歴データベース-HDBと呼ばれます）は、1秒あたり800万行のボリュームを与えられたPBのデータを保存することができます。 – notlightnorchroma

kdbは、データをメモリに格納するため、クエリ速度が非常に速いという印象を受けました。しかし、データがディスクにフラッシュされ、この履歴データ（ディスクに格納されている）でクエリを実行すると、クエリの速度はかなり遅くなります。あなたはこれを経験しましたか？ – user1471299

Druid/Cassandraのデータベースに100万行+秒を挿入する

答えて

関連する問題