私たちは、約1億4000万レコードのデータサイズを処理し、機械学習アルゴリズムをほとんど実行しようとしていない学生です。私たちはクラウドソリューションとmahout実装の初心者です。現在はpostgresqlデータベースにそれらを設定していますが、現在の実装はスケールアップせず、多数のパフォーマンスチューニングの後で読み書き操作が極端に遅くなっているようです。クラウドベースのサービスに行くAmazon EC2とPiCloud
私たちはいくつかの可能性のある選択肢を検討しました。
- Amazonクラウドベースのサービス(Mahoutの実装)
- Picloud scikitsは(私たちはnumpyのをHDF5形式を使用することを計画していた)を学習して
- あれば、他の選択肢をお勧めしてください。ここで
(ターンアラウンドタイム)私たちに良い結果をもたらすであろうし、費用対効果が高くなり、次の質問
- ですか?他の選択肢があることをお伝えください。
- アマゾンサービスを設定した場合、データフォーマットはどのようにしたらよいですか? dynamodbを使用するとコストが上昇しますか?
おかげ
PiCloud(Scikit付きHdf5)VS AWSの可能性についてご意見をお聞かせください。 –
いいえ、私はPiCloudに精通していません。 – ObscureRobot