サンプルドキュメントの巨大なリポジトリがさまざまなテーマでどこにあるのでしょうか? いくつかのアルゴリズムをテストするためには、少なくとも数千ものドキュメント(OfficeまたはPDFがうまくいくはずです)を探しています...ドキュメントにはいくつかの共通の基礎があるべきです - 例えば、プログラミングに関する1000のドキュメント、エコロジーなどへ...多数のサンプルドキュメント
どこから入手できますか?
サンプルドキュメントの巨大なリポジトリがさまざまなテーマでどこにあるのでしょうか? いくつかのアルゴリズムをテストするためには、少なくとも数千ものドキュメント(OfficeまたはPDFがうまくいくはずです)を探しています...ドキュメントにはいくつかの共通の基礎があるべきです - 例えば、プログラミングに関する1000のドキュメント、エコロジーなどへ...多数のサンプルドキュメント
どこから入手できますか?
編集:ミー?役に立たない? :)
import mechanize, urllib, os
template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
br.open(template % i)
links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
urllib.urlretrieve(url, os.path.basename(url))
あなたは手動でそれらの1000をダウンロードすると思いますか? -1 –
うん、または彼のために簡単なスクリプトを書いてください。 –
あなたはウィキペディアを試しましたか? ?スクリプトの作成:印刷可能= yesのURLの最後に(レイアウトCRUDを削除するように)追加し、リダイレクト結果に従う
コールhttp://en.wikipedia.org/wiki/Special:Randomランダムページに
を取得することを - これらの2つのステップまたは同等のものに対してwgetを使用すると、リダイレクトが行われます。
結果のhtmlコンテンツをhtml-> pdfコンバータでパイプします。
1000回繰り返す。
これは、さまざまなコンテンツを取得する必要があります。
ウィキペディアのデータセンターにもいくつかの友達ができます:p –
そのようなトラフィックは何もありません。各リクエストの間に小さな休憩を追加してください。 ddos)、問題はありません。 – Kazar
真剣に。彼らは1秒間に数千(数十、数十万ではないにせよ)のヒットを得る。彼らは少しでも気づかないでしょう。 –
ヤフー検索APIの詳細検索を使用して、探しているドキュメントタイプを指定することができます。
http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web
あなたがWord文書を大量にしたい場合は、いくつかの事前に選択したキーワードに基づいて検索を行って、あなたがしたい文書の種類を指定します。それはあなたに文書の束を戻すはずです。
ます。また、高度なGoogle検索をこすりと(ランダムリストから)のfileTypeを指定することにより、方法の文書へのリンクをつかむことができ、例えば:あなたは最後の7日間試してみましたが何
http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf
私は、 "manual filetype:pdf"のためにグーグルを検索して、パースをテストするために大きくて色々なPDFを得ることができました。 – Hardwareguy
?回答は役に立ちましたか?または、この質問をplz-send-the-samplezに返すべきですか? :) –
私はまだ何も試していません。提案されたソリューションは面白いですが、私のニーズを正確に満たすものではありません... – SaguiItay
この質問は、http://opendata.stackexchange.com/のトピックになります –