2016-05-22 6 views
0

コアレポートAPI V3を使用してGoogleアナリティクスレポートを自動化する作業を進めています。私は以前に定義されたセグメントを含むクエリのデータを要求するとGoogleアナリティクス - サンプリングされたデータにAPIクエリ以外のセッションが表示される

、次のシナリオでは、セッションとして

メトリックを発生し、APIを用いて得られたクエリで報告されているユーザーとページビュー数でありますGoogleアナリティクスレポートに表示されているものより高い 私は、GAによって提出されたレポートでは、それらがサンプリングされていると言及していることに気付きました。 サンプリングの効果は、計数されたメトリック全体よりも低いメトリックを持つことになると思うので、疑問が生じます。

これはどのように意味がありますか? (サンプリングされていないレポートのメトリックが、サンプリングされたレポートのメトリックよりも高いレベル)

答えて

2

サンプリングとは、データが正確でないことを意味します。つまり、真の値より大きいか小さい可能性があります。

たとえば、私はちょうど10,000人の従業員の会社で働いているとします。大きなチーズは、すべての人が幸せであることを確認するために、労働力の非常に詳細な調査を行いたいと思っていますが、10,000時間の労働時間を失うだけでOKではないと思います。代わりに、1,000人のスタッフを無作為に選ぶ。選択が本当にランダムである限り、それは代表的なサンプルであるべきです。つまり、ジェンダーバランス、民族性、子供とのパーセンテージ、平均通勤時間などは、労働力全体とほぼ同じです。

同様に、多くの集計を必要とするレポートをGoogleアナリティクスに実行するよう依頼すると、データの半分のみを表示することになります。最も単純な要求でさえ多くの計算が必要になることがあります。彼らの視点から、その期間のセッションの40%または50%だけをランダムに選択し、結果をスケールアップする方がはるかに安いです。

これらの結果は、後で補正するために結果が乗算されるため、表示される結果は真の値とほぼ同じになります。最も大きな変化は、あまり頻繁に起こらないものになります。一年に一度開催される可能性が高い「誰かがちょうど1,000ポンドを借りた」というイベントがあったとします。これがGoogleのサンプルにランダムに登場すると、年に2回発生する可能性があります。それ以外の場合、それは決して起こらないと思うかもしれません。

重いサンプリングに直面している場合、回避する方法はいくつかあります。次のことをお勧めします。

  • ユーザーメトリックは避けてください。それは計算に最も時間のかかるものの一つです。
  • 期間を短くしてください。
  • 複雑なセグメントを使用しないでください。
  • あまりにも多くのディメンションを一度に使用しないでください。
  • ヒット数があまり多くないようにしてください。余計なイベントがありますか?複数のサイトで同じコードを使用していますか?バーチャルページビューの過剰使用

Googleアナリティクスプレミアムをお持ちの場合は、[アンサンプル]レポートをリクエストできますが、[ユーザー]メトリックに指定されているエクスポートされた合計を把握する必要があります。彼らはまだこれを台無しにする。

サンプリングは任意のレートで実行できます。極端な状況ではセッションの1%未満に削減する可能性があります。サンプリングされたすべての統計情報を塩のピンチで取得するだけでなく、自分が行っていることを知っていることも理解する必要があります。サンプルサイズが50%以上であれば問題ありません。 40%未満であれば、心配し始めるはずです。約1%未満になってしまっている場合は、Googleアナリティクスをその要点を超えて実際に拡張しているので、それが最善を尽くしていない場合は驚かないでください。

関連する問題