2016-07-28 3 views
0

日付、テレビチャンネルID、ムービーIDの3つの列を含む多くのcsvファイルを処理する必要があります。抽象データを分析する

これらの列に基づいて、各映画のジャンルとテレビチャンネルIDのジャンルを分類する必要があります。

私は大きなデータプロセスに慣れています。私はidを持っていればそのデータをどのように分類できますか(私はIDを検索するために別のソースを使うことはできません。

私が見つけた解決策は、ある範囲の時間を定義し、あるジャンルの範囲内にあるフィルムを置くことです。例:

  • 01:00-04:00、ジャンル1;
  • 04:01-06:00、ジャンル2の間で再生される映画。分類映画の後
  • など

、私は彼らが演奏した動画に基づいて、テレビのチャンネルを分類することができます。

と私はスパークを使用してそれを行うことを計画しています:)

誰もが別のソリューションまたは任意のアドバイスがありますか?これらのデータは抽象的なように見えるので、ちょっと難しいです。あなたは、「ドラマ」、「コメディ」、「アクション」、または「Genre1」、「Genre2」を意味しています、「私は映画のジャンルを分類する必要がある」と言うとき

はあなたに

+0

試したことがあるコードを提供できますか?それが立てば、答えが広すぎるほど多くのアプローチがあります。 – wheaties

+1

あなたの説明から、あなたはまだビジネスロジックを理解しているようです!いったんビジネスロジックを理解すると、どのようにスパークを使用できるかを考えることができます。 – rakesh

答えて

1

ありがとうございましたか!私は次の2番目のケースを仮定します。

は手でジャンルを割り当てないでください -

まずクラスタリングアルゴリズムを使用して、私は映画が再生された時間に基づいて、ジャンルを割り当てません。一般的に言えば、私はあなたが手でクラスタリングをしないようにします。これがクラスタリングアルゴリズムのためのものです。それらは、ある意味で、互いに関連する個体をグループ化する機能を使用する。

あなたのケースでは、トリッキーな部分があります。各データポイント/行はムービーではありません。したがって、ムービーは異なるクラスタに存在する可能性があり、異なるジャンルを有することを意味する。

いくつかのオプションがあります:

  • さまざまなジャンルの映画belonsどちらか - 非常に自然です。
  • ムービーが最も頻繁に表示されるグループに基づいて1つのジャンルのみを選択できます
  • ムービーごとに複数のジャンルを割り当てることを決めた場合は、しきい値が考えられます。たとえば、ムービーがNあなたは多くの新機能として設計する必要があり、グループ内の時間、(それが見えるだけのグループでない限り)、それがこのグループに属していない

新機能

を作成します*あなたとすることができ、クラスタリングを支援するデータをうまく分離し、均質なクラスタを作成することができます。私はあなたがすることができる、と考えることができたよう

  • は、あなたが考える各時間フレーム(午後12時のブール機能追加 - 3時59分、4時 - 6:00; .. )。これらの機能の1つだけが、映画が再生されたときです。他はnullです。

  • 動画が再生された回数をカウント機能は、(ブラックで男性がより十二人の怒れる男よりも演奏される))

  • チャネルIDは、(この映画を演じてきたどのように多くのcouting機能のスターウォーズは、いくつかのボリウッド映画よりも多くのチャンネルで再生されます)

  • ...

考えますジャンルがどのようにすべてのチャンネルで演奏され、演奏され、それに応じてフィーチャーが作成されます。

PS:*間違ってはいけません。多くの機能があります。は、3つの機能以上のものを意味しますが、それは次元の呪いです。

+0

あなたは良いアドバイスをしていますが、この質問はStackOverflowには本当に適切ではありません。[CrossValidated](http://stats.stackexchange.com/)に適しています。 –

+0

@IgorQA素晴らしいアドバイスありがとうございます。私は "Genre1"、 "Genre2"などしか持てません。なぜなら私のCSVファイルには "ランダムな"番号しかないからです。今、私は(愚かな)質問を、あなたは新しい機能を作成すると言う、私のクラスタリングアルゴリズムでそれを作成することを意味ですか?これは私の初めてのことです、私はあなたのアドバイスの前にサークルで走っていました。 – placplacboom

+1

最初の3つの変数のうち、私が言及したような$ N $の新しい機能を作成します。次に、合計3 + N機能でクラスタリングアルゴリズムを実行します –

関連する問題