ClickStreamデータ分析

私はBigdata分析の初心者で、クリックストリームデータ分析と呼ばれる興味深いシナリオを見つけました。私が知っているのは、クリックストリームデータです。このシナリオと、シナリオの異なるステップでデータを処理するために必要な一連のツールとビジネスの最大の利益のために使用できるさまざまなシナリオについて、さらに詳しく知りたいと思います。ClickStreamデータ分析

ご協力いただければ幸いです。ありがとうございました。

出典

2016-08-29 Hemanth Annavarapu

EDXのスパークコースを見ることができます。分析や機械学習のためにスパークを使用したクリックストリームの例を使用することもあります。

出典

2016-08-29 02:48:03

次は、ほとんどの企業は何をすべきかの高レベルの画像を与えることができます：クライアントはカフカにストリーミング

スパークにイベント

ポンプであなたのイベントに合格するための

摂取REST-FUL APIをHDFSにカフカからデータをポンピングするリアルタイム計算
Gobblin（または類似の）を行い、両方のリアルタイムおよびバッチジョブがドルイド（ラムダアークに計算されたメトリックをポンプHDFS
にバッチM/Rジョブを実行しますhitecture）私の経験から私たちのスタック

内のすべての層を介してイベントを追跡

メトリック集約フレームワークを、警告するためのエンドユーザーのレポート/ダッシュボード

Nagiosの（または類似）のため

UI、それをかなり成熟したツールから始め、終わりから終わりまでPOCを行うのが良いでしょう。それからあなたが周りに遊ぶことができる他のツールを見てください。たとえば、パイプラインが成熟し始めると、非同期処理API（scala/akkaで記述）、インラインイベント変換を行うKafkaストリーム、リアルタイムジョブとバッチジョブの両方でFlinkなどがあります。

出典

2016-08-29 04:43:08

答えに記載されているすべての技術コンポーネントで作業を完了できるシナリオを教えていただけますか？つまりプロジェクトの目的です。 –

私が自分の会社で行っていることの正確な詳細について話すことができるかどうかはわかりません。私はどのツールが利用可能であるかについての簡単な概要を提供しました。それらのタイプと目的は、あなたがメッセージバス、M/Rを実行するためのSparkなどとしてKafkaを使用すると言っています。あなたは、おそらく、私たちが使用するセット全体、あるいは同じセットのツールを必要としないでしょう。 –

GoogleアナリティクスとMixPanelに似たものがあります。 –

Clickstream Dataですか？

これは、インターネットをサーフィンしているときにユーザーが去ってしまう仮想トレイルです。クリックストリームは、ユーザーがアクセスしたすべてのWebサイトと各Webサイトのすべてのページ、ユーザーがページまたはサイトにいた期間、ページがどのような順序で訪問したか、すべてのニュースグループユーザーが参加するメールの電子メールアドレス、さらにはユーザーが送受信するメールの電子メールアドレスにも影響します。 ISPと個々のWebサイトの両方が、ユーザーのクリックストリームを追跡することができます。ブラウザの高さ、幅、ブラウザ名、ブラウザの言語、デバイスタイプ（デスクトップ、ラップトップ、タブレット、モバイル）、収益、日、タイムスタンプ、IPアドレス、URL、：

クリックストリームデータのような情報を含むことができますカートに追加された製品の数、削除された製品の数、州、国、請求先の郵便番号、出荷郵便番号など。

Clickstreamデータからさらに情報を抽出するにはどうすればよいですか？

ウェブアナリティックレルムでは、サイト訪問者および潜在的な顧客は、サブジェクトベースのデータセットのサブジェクトに相当します。次のクリックストリームのデータ例を考えてみましょう。サブジェクトベースのデータセットは行と列（Excelスプレッドシートなど）で構成されています。データセットの各行は固有のサブジェクトであり、各列はそのサブジェクトに関する情報です。顧客ベースの分析を行う場合は、顧客ベースのデータセットが必要です。最も細かいフォームでは、クリックストリームのデータは次の図のようになります。同じ訪問者からのヒットは一緒に色分けされています。