2012-01-28 5 views
4

私は、統計情報があるニュース記事のセットを持っています。例えば、日の範囲の記事を言及しているtwitter投稿の数です。統計値の自然な振る舞いは、新しい投稿の数が急速に増え、ニュースが古くなるにつれて減少することです。時系列データの変化がもはや重要ではないことを検出する方法は?

統計の変更がそれ以上重要ではない日数を計算する方法を知りたいと思います(例:<投稿総数の0.1%)。

情報と方法を探すヒントを教えてください。私もPythonでいくつかのコードサンプルをいただければ幸いです:)

+0

あなたのプログラムは「学習する」か、ハードコードするために必要な値を知りたいだけですか? – 0xc0de

+0

簡素化する:価値を学ぶだけでも十分である – xvga

答えて

8

この質問は実際には時系列解析についてです。カットオフポイントを決定することに興味があるので、開始するのに適した場所はControl Chartsです。 統計情報(管理図以外)を詳しく調べる場合は、Change Point Analysisを参照して、時系列の構造変更を参照してください。

Pythonモジュール:Pythonでモジュールが関連しているnumpyのパンダをこの分析を実行します。このpost in statalgoは、Pythonコードに関して正しい軌道に乗るでしょう。 (あなたは、分析のためのRを使用することに開いている場合は、CRANはtseriesstrucchangeをパッケージ化を検討してください。)SEで

Relavant質問(統計)How to detect a change in time series data?

関連のある実際の生活の例 :オサマ・ビン・ラディンの死後、analysis done on how that piece of news spreadがツイッターに掲載されました。この記事には、に関するニュースの広がりのに関するご質問に特に関連するセクションもあります。

最後に、Stats SE siteでこれを検討することもできます。

希望に役立ちます。

関連する問題