arXiv電子プリントアーカイブには、さまざまな科学分野の数テラバイトの論文があります。一部のユーザーは、このデータの完全なコピーを自分のコンピュータで管理したいと思っている人もいれば、最新の論文を特定のカテゴリにダウンロードしたい人もいます。彼らは、何らかの種類の分散ダウンロードシステム(例えば、BitTorrent)を使用して帯域幅の負荷を軽減しようとしている。私はこのすべてをカバーするプログラムや一連のプログラムのアイデアを探しています。ArXivレプリケーションブレインストーミング
0
A
答えて
1
完全なpdfコンテンツはアマゾンクラウドにあります。 PDFファイルの合計サイズがT.
< 1/2 TBhttp://arxiv.org/help/bulk_data_s3
ありながら> arXivの上の600K論文で関わる人々の
0
私の最初のアイデアは、Usenetニュースグループのように見えて、サーバー上のメッセージに無限の永続性があるということです。私はそれがPDFでどれくらいうまく動作するかはわかりません。
1
arXiv recommends squid httpdアクセラレータモードで正確にこの目的のためです。なぜこれで十分ではないのか?
関連する問題
一つは、まず第一に、」それはすべきであると述べましたarXivのロボットポリシーのおかげで、現在のところこのようなものはありません。言い換えれば、15年以上の研究では、ニブルベースでアクセス可能ですが、実際にはアクセスできません。この新しいプロジェクトのポイントは、arXiv全体をダウンロードできるようにすることです。 – sep332