私はいくつかの話題を見つけたいと思っています。Hadoopスタータープロジェクトの提案
2
A
答えて
1
MergeSortは素晴らしい/簡単なものです。 generating word counts for all words in a fileと一緒に行くこともできます。良いデータソースは、公開ドメイン書籍のProject Gutenbergライブラリです(これらのうちのいくつかを常に連結することができます)。
単語の数と同じように進んでいるだけのものが必要な場合は、非常に単純な分散型スペルチェッカーを書くことができます。 Peter Norvigは、Pythonで書かれたスペルチェッカーの素晴らしいsimple demonstrationです。良い方法は、このアルゴリズムを分散してファイルを操作するように拡張することです。
1
あなたはいくつかのプロジェクトhere
小規模のHadoopプロジェクトのいくつかの素晴らしいと興味深い例がありますがあります。すべてが非常によく記述されています。さらに、ソースコードと必要なすべての理論を見つけることができます。
関連する問題
- 1. hadoopアーキテクチャを提案する
- 2. スレッドとデータベースの提案の提案
- 3. 提案
- 4. コードタスクスケジューラの提案
- 5. ワークフローエンジンの提案
- 6. デプロイメントキットの提案
- 7. jsonの提案
- 8. サービスレイヤの提案
- 9. カレンダーアプリの提案
- 10. CMSの提案
- 11. スピードアップオートコンプリートの提案
- 12. クラスドキュメントの提案
- 13. メモリアロケータの提案
- 14. アンドロイドアプリケーションローカリゼーションの提案
- 15. Facebookと提案
- 16. 提案GWTハイスケールアプリケーションサーバ
- 17. アクションスクリプト2提案
- 18. 提案/パースライブラリ
- 19. DBデザイン - 提案
- 20. Apache Mahoutを使用しているカスタム提案者ジョブhadoopの上に0.11.2
- 21. iPadユーザーインターフェイスデザインの提案
- 22. Windowsホスティングの提案
- 23. wxWidgetsグラフィックデザイナーの提案
- 24. AIプロジェクトの提案?
- 25. Wordpressのビデオプレーヤー提案
- 26. データアクセスインターフェイス名の提案
- 27. WowzaのCDN提案
- 28. iPadエミュレータの提案
- 29. MVCカミソリルーティングの提案
- 30. WCFサービスセキュリティの提案
私はコースのレベル/期待をよりよく理解することなく、どんなアイデアも評価するのをためらっています。しかし、私は、シンプルで簡単に達成できる最終プロジェクトは、スペルチェッカーの分散バージョンと考えています。 1つは、HDFSでソートされている場合はもっと大きなトレーニングセットを使用でき、2つの場合は、それぞれの単語を独立して考えることができるため、非常に高速な処理が可能です(この単純なアルゴリズムの場合)。最後に、それは達成していることと実装されている方法の両方で、単語数やマージソートよりもはるかに上のステップです。 – smessing
ありがとうございました! :) –
問題ありません!また、下部にリストされているNorvigのアルゴリズムのJava実装があることに気がつきましたが、ここでは始めることができます。 – smessing