Q

多数のサンプルドキュメント

sample

2009-07-14 3 views 1 likes

1

サンプルドキュメントの巨大なリポジトリがさまざまなテーマでどこにあるのでしょうか？いくつかのアルゴリズムをテストするためには、少なくとも数千ものドキュメント（OfficeまたはPDFがうまくいくはずです）を探しています...ドキュメントにはいくつかの共通の基礎があるべきです - 例えば、プログラミングに関する1000のドキュメント、エコロジーなどへ...多数のサンプルドキュメント

どこから入手できますか？

2009-07-14 SaguiItay

+0

？回答は役に立ちましたか？または、この質問をplz-send-the-samplezに返すべきですか？ :) –

+0

私はまだ何も試していません。提案されたソリューションは面白いですが、私のニーズを正確に満たすものではありません... – SaguiItay

+0

この質問は、http://opendata.stackexchange.com/のトピックになります –

A

答えて

0

On the internetzzz?

編集：ミー？役に立たない？ :)

import mechanize, urllib, os 

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N" 
links = [] 

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'Firefox')] 
for i in xrange(0, 30, 10): 
    br.open(template % i) 
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$")) 
for url in links: 
    urllib.urlretrieve(url, os.path.basename(url))

2009-07-14 22:25:40

+0

あなたは手動でそれらの1000をダウンロードすると思いますか？ -1 –

+0

うん、または彼のために簡単なスクリプトを書いてください。 –

6

あなたはウィキペディアを試しましたか？？スクリプトの作成：印刷可能= yesのURLの最後に（レイアウトCRUDを削除するように）追加し、リダイレクト結果に従う

コールhttp://en.wikipedia.org/wiki/Special:Randomランダムページに
を取得することを - これらの2つのステップまたは同等のものに対してwgetを使用すると、リダイレクトが行われます。
結果のhtmlコンテンツをhtml-> pdfコンバータでパイプします。
1000回繰り返す。

これは、さまざまなコンテンツを取得する必要があります。

2009-07-14 22:31:17 Kazar

+0

ウィキペディアのデータセンターにもいくつかの友達ができます：p –

+0

そのようなトラフィックは何もありません。各リクエストの間に小さな休憩を追加してください。 ddos）、問題はありません。 – Kazar

+0

真剣に。彼らは1秒間に数千（数十、数十万ではないにせよ）のヒットを得る。彼らは少しでも気づかないでしょう。 –

2

ヤフー検索APIの詳細検索を使用して、探しているドキュメントタイプを指定することができます。

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

あなたがWord文書を大量にしたい場合は、いくつかの事前に選択したキーワードに基づいて検索を行って、あなたがしたい文書の種類を指定します。それはあなたに文書の束を戻すはずです。

ます。また、高度なGoogle検索をこすりと（ランダムリストから）のfileTypeを指定することにより、方法の文書へのリンクをつかむことができ、例えば：あなたは最後の7日間試してみましたが何

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

2009-07-14 22:44:19 Jon

+0

私は、 "manual filetype：pdf"のためにグーグルを検索して、パースをテストするために大きくて色々なPDFを得ることができました。 – Hardwareguy

関連する問題