2017-08-30 3 views
-1

悪質なURLを検出するためのアプリを作成する必要がある最終年度のプロジェクトに取り組んでいます。私たちはすべてのURLの間にパターンを見つけなければなりません。我々は、他のURLとURLを一致させるのに非常に時間がかかる大きなデータセットを持っています。悪意のあるURLのデータセット用にmapreduceを作成するのに手助けが必要

ここでは、プロジェクトをhadoopに移すことを考えていますが、私たちのJavaプロジェクトとデータセットのmapreduceを作成してhadoopに移動する方法はありません。

私たちのプログラムとデータセットのためにmapreduceを作成するのを手伝ってください。 ご協力いただければ幸いです。

+0

何も起動していない場合は、MapReduceの代わりにApache Sparkを使用してください。そこには始める方法を教えてくれる素晴らしいチュートリアルがたくさんあります。 – philantrovert

+0

mapreduceと比較してsparkのパフォーマンスはどうですか?いいですか? –

+0

私はそれがはるかに優れていると思います。 – philantrovert

答えて

0

MapReduceは、ではなく、でペアワイズの比較に適しています。

これは、すべてのオブジェクトを同じ方法で「マップ」することを意味します。厳密なMRのペアで作業するには、データを大量に複製する必要があります。結果としてデータ転送がパフォーマンスを低下させるので、それは良い考えではありません。

ペアワイズ比較の問題は一般的にうまくスケールされません。

本当にスケーラビリティが必要な場合は、すべてのURLといくつかの良いフィルタを比較しないようにスマートな方法を考えてください。 MapReduceを使用して、このフィルタリング(および残りのペアの処理)を行うことができます。

関連する問題