ログファイルのデータを処理する必要があります。それは比較的簡単です。私は2つのWebアプリケーションがそれぞれ8つのログファイルを実行している4つのサーバーを持っています。これらは定期的に回転します。 ; 39048039; 930483; 3940830ログファイルの処理:Apache StormまたはSpark
番号は、データストアに識別子です9340398:私は、これらのログファイルに次の形式で
ソースタイムスタンプをデータを書いています。私は、これらのログを読み込むプロセスを設定したいと思っています。それぞれのIDに対して、そのIDが記録された回数に応じてカウントを更新します。それはリアルタイムまたはバッチのいずれかです。私のデータストアへのインターフェイス言語はJavaです。このプロセスは本番環境で実行されるため、堅牢である必要がありますが、比較的シンプルなアーキテクチャーが必要なため、保守が必要です。私たちはまた、動物園を経営しています。
私の初期の考えは、ログファイルが回転されて各サーバー上でApacheスパークが実行されているときに、これを一括して実行することでした。しかし、私はその後、Apache Flume、Kafka、Stormなどのログアグレゲーターを見ていましたが、これは過度のようです。
経験に基づいてこの問題を処理するためにどのツールを使用するのか、誰にでも良い提案がありますか?
おそらく[logstash](https://www.elastic.co/products/logstash)のようなソリューションが使えますか?一般的に、これらの種類の質問はSOに関連していません。 –
こんにちは、私はLogstashを見て、タイプ操作をフィルタリングする方がより重視されていました。私はこの質問がSO憲章には適していないことに同意します。 –