2016-12-29 6 views
1

私は、クラスタや任意の抽象化されたエグゼキュータでML実験を実行/実行するための小さなソフトウェアを書き、実際にそれらを見ることができるように保存しようと考えています効率的な時間。エグゼキュータソフトウェアは、データベースに書き込むためのアクセス権を持ち、メトリックを有効にプッシュします。さて、私はデータベースであまり働かなかったので、これには正しいアプローチが何か分かりません。システムに保存する内容を以下に示します。ML実験を保存するためのデータベースのタイプ

各実験は、リモートマシンで実行できるようにコード/アーカイブの1つのコードで構成されます。今のところ、依存関係などがそこにインストールされていると仮定します。コードはコマンドライン引数を受け入れます。この実験はまた、コマンドライン引数を定義するYAMLスキームで構成されます。 byitselfのコードでは、ログインするものを指定します(例:チャンネルを登録するための言語でライブラリを提供します)。今、ロギングに関して、数値、配列、テキストなどをかなりの数のタイプで記録することができます。各チャンネルには1つの仕様(たとえば、2列、最初のint反復、2番目のfloatエラー)が許可されます。このコードでは、実験終了時に特別なパラメータのコピーも提供されます。

実験を提出する際には、固有のグループ名+実行パラメータを指定する必要があります。これで実験が開始され、すべてが記録されます。

私のためにこれを実装することは、フラットファイルシステムで行うのが最も簡単です。各プロジェクトには一意の名前が付けられます。新しい実験ごとに、プロジェクト内で一意のIDとフォルダが取得されます。私はそこにコードを格納することができます。各チャンネルはファイルを取得しますが、シンプルにはcsv delimeterを使用することができます。特別なスキーマファイルを使用してそこに格納される値のタイプを記述します。最終的なパラメータは、フォルダにコピーすることもできます。

しかし、私はこれを行うことができる様々な方法と、実験ごとに別々の「テーブル」が必要なことがあるため、これがどのデータベースシステムでも可能かどうかはわかりません。さらに、私は何か非常に明白かどうかを監督しているかもしれません、もしあなたがこれについての経験があれば、アドバイス/アドバイスは大歓迎です。最終目標は、これをWebインターフェイスに提供することです。多分、noSQLはこれを受け入れることができませんでした(私はそれらの仕事の仕組みが正確に分かりません)。

答えて

0

MLのデータは、主に非構造化データです。この種のデータは、RDBMSに当てはまるわけではありません。基本的に、mongodbのような文書データベースは、そのような場合にはるかに適しています。

関連する問題