2009-05-25 19 views
2

私はソースからデータを受け取り、そのデータを複数のターゲットアプリケーションに配布するデータ配布アプリケーションに取り組んでいます。 8日間毎秒複数のメッセージを正常に配信した後、1つのメッセージが欠落し、クライアントに正しく配信されませんでした。バグを見つけるためのデータマイニングログ

ログを見ているうちに、データ、レート、またはその他の条件のいずれかで、何か見つからなかったときに特別なものを見つけようとしました。

特定のイベントが他のイベントとどのように異なるかを特定するために使用できるデータマイニング手法はありますか?

+0

メッセージングシステムで何らかの保証されたトランスポートが使用されていない場合は、常にメッセージを失う危険はありませんか? –

+0

TCPの上で実行されるため、転送が保証されます。メッセージが配信されているかどうかに影響を与えるロジックがあります。それはおそらく問題のどこにあるのでしょうか。私の質問は一般的な興味のかもしれない。 – gooli

答えて

2

outlier detectionをご覧ください。基本的なテクニックは、たくさんのメッセージのいくつかの変数をプロットして、このメッセージが文字通り際立っているかどうかを確認することです。 2つ以上の次元を同時に視覚化する方法はparallel coordinatesです。たぶん、30分のビンを見て、その統計を計算し、このメッセージの周りに問題があるかどうかを調べるべきでしょう。

0

ここでデータマイニングは適切なツールではないと思います。

私はいくつかの体系的なロギングを追加します(インターフェースでは、内部状態の変化を推測するのは難しいですし、あなたのケースでは、配布するかどうかという決定がなぜ行われたのでしょうか)、問題を再現して、間違えた。数百万のメッセージとこれほどまれなバグはありません。

0

申し訳ありませんが、データマイニングとは何かを誤解しています。

あなたは既に問題のメッセージを知っているので、あなたはそれが「外れ値」であることを知っています。あなたは何のために鉱業をしていますか?

関連する問題