2009-07-30 4 views
0

arXiv電子プリントアーカイブには、さまざまな科学分野の数テラバイトの論文があります。一部のユーザーは、このデータの完全なコピーを自分のコンピュータで管理したいと思っている人もいれば、最新の論文を特定のカテゴリにダウンロードしたい人もいます。彼らは、何らかの種類の分散ダウンロードシステム(例えば、BitTorrent)を使用して帯域幅の負荷を軽減しようとしている。私はこのすべてをカバーするプログラムや一連のプログラムのアイデアを探しています。ArXivレプリケーションブレインストーミング

答えて

1

完全なpdfコンテンツはアマゾンクラウドにあります。 PDFファイルの合計サイズがT.

< 1/2 TB

http://arxiv.org/help/bulk_data_s3

ありながら> arXivの上の600K論文で関わる人々の

0

私の最初のアイデアは、Usenetニュースグループのように見えて、サーバー上のメッセージに無限の永続性があるということです。私はそれがPDFでどれくらいうまく動作するかはわかりません。

1

arXiv recommends squid httpdアクセラレータモードで正確にこの目的のためです。なぜこれで十分ではないのか?

+0

一つは、まず第一に、」それはすべきであると述べましたarXivのロボットポリシーのおかげで、現在のところこのようなものはありません。言い換えれば、15年以上の研究では、ニブルベースでアクセス可能ですが、実際にはアクセスできません。この新しいプロジェクトのポイントは、arXiv全体をダウンロードできるようにすることです。 – sep332