2016-08-29 3 views
3

私はBigdata分析の初心者で、クリックストリームデータ分析と呼ばれる興味深いシナリオを見つけました。私が知っているのは、クリックストリームデータです。このシナリオと、シナリオの異なるステップでデータを処理するために必要な一連のツールとビジネスの最大の利益のために使用できるさまざまなシナリオについて、さらに詳しく知りたいと思います。ClickStreamデータ分析

ご協力いただければ幸いです。ありがとうございました。

答えて

0

EDXのスパークコースを見ることができます。分析や機械学習のためにスパークを使用したクリックストリームの例を使用することもあります。

3

次は、ほとんどの企業は何をすべきかの高レベルの画像を与えることができます:クライアントはカフカにストリーミング

  • スパークにイベント
  • ポンプであなたのイベントに合格するための

    1. 摂取REST-FUL APIをHDFSにカフカからデータをポンピングするリアルタイム計算
    2. Gobblin(または類似の)を行い、両方のリアルタイムおよびバッチジョブがドルイド(ラムダアークに計算されたメトリックをポンプHDFS
    3. にバッチM/Rジョブを実行しますhitecture)私の経験から私たちのスタック

    内のすべての層を介してイベントを追跡

  • メトリック集約フレームワークを、警告するためのエンドユーザーのレポート/ダッシュボード
  • Nagiosの(または類似)のため
  • UI、それをかなり成熟したツールから始め、終わりから終わりまでPOCを行うのが良いでしょう。それからあなたが周りに遊ぶことができる他のツールを見てください。たとえば、パイプラインが成熟し始めると、非同期処理API(scala/akkaで記述)、インラインイベント変換を行うKafkaストリーム、リアルタイムジョブとバッチジョブの両方でFlinkなどがあります。

  • +0

    答えに記載されているすべての技術コンポーネントで作業を完了できるシナリオを教えていただけますか?つまりプロジェクトの目的です。 –

    +0

    私が自分の会社で行っていることの正確な詳細について話すことができるかどうかはわかりません。私はどのツールが利用可能であるかについての簡単な概要を提供しました。それらのタイプと目的は、あなたがメッセージバス、M/Rを実行するためのSparkなどとしてKafkaを使用すると言っています。あなたは、おそらく、私たちが使用するセット全体、あるいは同じセットのツールを必要としないでしょう。 –

    +0

    GoogleアナリティクスとMixPanelに似たものがあります。 –

    10

    Clickstream Dataですか?

    これは、インターネットをサーフィンしているときにユーザーが去ってしまう仮想トレイルです。クリックストリームは、ユーザーがアクセスしたすべてのWebサイトと各Webサイトのすべてのページ、ユーザーがページまたはサイトにいた期間、ページがどのような順序で訪問したか、すべてのニュースグループユーザーが参加するメールの電子メールアドレス、さらにはユーザーが送受信するメールの電子メールアドレスにも影響します。 ISPと個々のWebサイトの両方が、ユーザーのクリックストリームを追跡することができます。ブラウザの高さ、幅、ブラウザ名、ブラウザの言語、デバイスタイプ(デスクトップ、ラップトップ、タブレット、モバイル)、収益、日、タイムスタンプ、IPアドレス、URL、:

    enter image description here

    クリックストリームデータのような情報を含むことができますカートに追加された製品の数、削除された製品の数、州、国、請求先の郵便番号、出荷郵便番号など。

    Clickstreamデータからさらに情報を抽出するにはどうすればよいですか?

    ウェブアナリティックレルムでは、サイト訪問者および潜在的な顧客は、サブジェクトベースのデータセットのサブジェクトに相当します。 次のクリックストリームのデータ例を考えてみましょう。サブジェクトベースのデータセットは行と列(Excelスプレッドシートなど)で構成されています。データセットの各行は固有のサブジェクトであり、各列はそのサブジェクトに関する情報です。顧客ベースの分析を行う場合は、顧客ベースのデータセットが必要です。最も細かいフォームでは、クリックストリームのデータは次の図のようになります。同じ訪問者からのヒットは一緒に色分けされています。 enter image description here

    データ科学者は、クリックストリームデータからより多くの機能を引き出します。各訪問者には、1回の訪問でいくつかのヒットがあり、長期間にわたり訪問の集まりがあります。ビジターレベルでデータを整理する方法が必要です。このようなもの:

    enter image description here 明らかに、データを集約する方法はさまざまです。ページビュー、収益、動画のような数値データの場合、平均値や合計値などの値を使用することができます。こうすることで、顧客の行動に関する詳細情報を得ることができます。集計されたグラフを見れば、の企業は金曜日に収益が増えていると簡単に分かります。

    顧客ベースのデータセットを取得すると、ビジターレベルでより深く有意義な分析にアクセスできるさまざまな統計モデルとデータ科学技術があります。データサイエンスコンサルティングは、これらのメソッドを活用して専門知識と経験を持っています

    • 解約のためのリスクが最も高いどの顧客予測と そのリスクに影響を与えている要因を決定します(あなたのを保持するのに 積極的にすることができます顧客基盤)

    • は、個々の顧客のブランド認知のレベルを理解し、個別、関連する申し出と

    • ターゲット顧客

    • 変換する最も可能性が高い顧客予測し は、統計的に 対応するために、あなたのサイトがその決定

    • 訪問者が最も可能性のあるサイトのコンテンツの種類を決定に影響を与える方法を決定し、係合が高ドライブどのようにコンテンツを理解します値 訪問

    • あなたのサイトに来る訪問者のさまざまな人物のプロファイルと特性を定義し、それらを利用する方法を理解してください。

    また、次のコーセラコースに興味がある可能性があり:

    https://www.coursera.org/learn/process-mining?recoOrder=6&utm_medium=email&utm_source=recommendations&utm_campaign=recommendationsEmail~recs_email_2016_06_26_17%3A57

    それは特殊なケースとして、微量分析をクリックしているプロセスマイニング、上だと思います。