私は大規模な大学で働き、私の部署のバックアップ要件の多くは中央ネットワークサービスによって提供されています。しかし、ユーザーの多くは、利用可能な中央記憶域を超える医用イメージングスキャンなどの大きなファイルのコレクションを持っています。ユーザーファイル用のLinuxデータウェアハウスシステム?
私は部署のリソースのための改良されたバックアップソリューションを提供し、スタッフがこれらのコレクションを保管できるLinuxサーバーをセットアップしました。しかし、私は、ほとんどアクセスされていない大量のファイルの集まりによって、サーバー内のストレージが氾濫しているのを見ることができます。私はこれに対処するシステムを持っているが、私は車輪を再発明していないことを確認したい。
マイコンセプト:
- ユーザーがサーバーにファイルをコピーします。
- スケジュールされたジョブは 別々のストレージメカニズム上のすべてのファイルの完全な 最新のコピーがいつか アクセスされていない
- ファイルです(1TB 外付けドライブは、現在このために充て です)キープ サーバーから削除されましたが、 ドライブには余裕があり、ライブ環境には に十分なヘッドルームを確保してください。
- シンプルなインターフェース(おそらく ウェブベース)は、ユーザーがライブサーバーにストレージ ドライブからコピーされ、彼らが必要とするものを要求できる からすべてのファイル、 の リストにアクセスすることができます。電子メール のファイルがコピーされた時点で通知が送信されます。
この概念は、私が前のジョブに話を聞いたが、直接使用していませんでしたPACS(画像保管通信システム)に基づいています。それは、ネットワークの他の部分を詰まらせなかった時にローカルマシンへの送信を可能にしながら、膨大な量のデータにアクセスするための「ニアライン」バックアップと同様のプロセスを使用しました。これは、多くの博物館や学術図書館で使用されているものと同様の原則であり、その総「データ所持」は直接アクセスシェルフ上で提示されるものよりもはるかに大きい。
私の要件を満たすシンプルなオープンソースシステムはありますか?異なるパラダイムを使用していますが、依然として私のニーズに合ったシステムがありますか?
これらのファイルの中には、患者を特定できる情報が含まれているものがあります。そのため、私はクラウドにデータを送り出すのではなく、ローカルサブネット上に何かを設定しようとしています(実際には、長期ストアの暗号化は、特にリムーバブルドライブで考慮する必要があります)。 ありがとうございます。 – basswulf
ああ、私は以前医学で働いていましたが、患者のデータは言及していませんでした。私は上記と同じようにしたいと思いますが、GPG内のすべてのファイルをラップしてからプッシュします。十分な鍵があれば、安全を保つ必要があります。またはHDFS。私は今答えを更新しています。 – mixonic