2009-07-14 3 views
1

サンプルドキュメントの巨大なリポジトリがさまざまなテーマでどこにあるのでしょうか? いくつかのアルゴリズムをテストするためには、少なくとも数千ものドキュメント(OfficeまたはPDFがうまくいくはずです)を探しています...ドキュメントにはいくつかの共通の基礎があるべきです - 例えば、プログラミングに関する1000のドキュメント、エコロジーなどへ...多数のサンプルドキュメント

どこから入手できますか?

+0

?回答は役に立ちましたか?または、この質問をplz-send-the-samplezに返すべきですか? :) –

+0

私はまだ何も試していません。提案されたソリューションは面白いですが、私のニーズを正確に満たすものではありません... – SaguiItay

+0

この質問は、http://opendata.stackexchange.com/のトピックになります –

答えて

0

Ontheinternetzzz?

編集:ミー?役に立たない? :)

import mechanize, urllib, os 

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N" 
links = [] 

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'Firefox')] 
for i in xrange(0, 30, 10): 
    br.open(template % i) 
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$")) 
for url in links: 
    urllib.urlretrieve(url, os.path.basename(url)) 
+0

あなたは手動でそれらの1000をダウンロードすると思いますか? -1 –

+0

うん、または彼のために簡単なスクリプトを書いてください。 –

6

あなたはウィキペディアを試しましたか? ?スクリプトの作成:印刷可能= yesのURLの最後に(レイアウトCRUDを削除するように)追加し、リダイレクト結果に従う

  1. コールhttp://en.wikipedia.org/wiki/Special:Randomランダムページに

  2. を取得することを - これらの2つのステップまたは同等のものに対してwgetを使用すると、リダイレクトが行われます。

  3. 結果のhtmlコンテンツをhtml-> pdfコンバータでパイプします。

  4. 1000回繰り返す。

これは、さまざまなコンテンツを取得する必要があります。

+0

ウィキペディアのデータセンターにもいくつかの友達ができます:p –

+0

そのようなトラフィックは何もありません。各リクエストの間に小さな休憩を追加してください。 ddos)、問題はありません。 – Kazar

+0

真剣に。彼らは1秒間に数千(数十、数十万ではないにせよ)のヒットを得る。彼らは少しでも気づかないでしょう。 –

2

ヤフー検索APIの詳細検索を使用して、探しているドキュメントタイプを指定することができます。

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

あなたがWord文書を大量にしたい場合は、いくつかの事前に選択したキーワードに基づいて検索を行って、あなたがしたい文書の種類を指定します。それはあなたに文書の束を戻すはずです。

ます。また、高度なGoogle検索をこすりと(ランダムリストから)のfileTypeを指定することにより、方法の文書へのリンクをつかむことができ、例えば:あなたは最後の7日間試してみましたが何

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

+0

私は、 "manual filetype:pdf"のためにグーグルを検索して、パースをテストするために大きくて色々なPDFを得ることができました。 – Hardwareguy