日付、テレビチャンネルID、ムービーIDの3つの列を含む多くのcsvファイルを処理する必要があります。抽象データを分析する
これらの列に基づいて、各映画のジャンルとテレビチャンネルIDのジャンルを分類する必要があります。
私は大きなデータプロセスに慣れています。私はidを持っていればそのデータをどのように分類できますか(私はIDを検索するために別のソースを使うことはできません。
私が見つけた解決策は、ある範囲の時間を定義し、あるジャンルの範囲内にあるフィルムを置くことです。例:
- 01:00-04:00、ジャンル1;
- 04:01-06:00、ジャンル2の間で再生される映画。分類映画の後
- など
、私は彼らが演奏した動画に基づいて、テレビのチャンネルを分類することができます。
と私はスパークを使用してそれを行うことを計画しています:)
誰もが別のソリューションまたは任意のアドバイスがありますか?これらのデータは抽象的なように見えるので、ちょっと難しいです。あなたは、「ドラマ」、「コメディ」、「アクション」、または「Genre1」、「Genre2」を意味しています、「私は映画のジャンルを分類する必要がある」と言うとき
はあなたに
試したことがあるコードを提供できますか?それが立てば、答えが広すぎるほど多くのアプローチがあります。 – wheaties
あなたの説明から、あなたはまだビジネスロジックを理解しているようです!いったんビジネスロジックを理解すると、どのようにスパークを使用できるかを考えることができます。 – rakesh