2012-02-07 9 views
13

可能性の重複:
Looking for dataset to test FULLTEXT style searches on巨大なテキストファイルはどこにありますか?

私はテストのために、プレーンテキストの100ギガバイトを必要のあるデータマイニングのプロジェクトにに最近だが...私は検索の疲れネット一日中。誰かが私がそのようなテキストファイルをダウンロードできるリンクを提供することによって私を助けてください。ありがとう。

+1

http://dumps.wikimedia.org/あなたがダウンロード100ギガバイトのテキストファイルをしようとしています使用する必要があります。 http://www.gutenberg.org/

ウィキペディアはまた、あなたが記事のアーカイブをダウンロードすることができます:

プロジェクト・グーテンベルクは良いスタートかもしれません。 .... – vikky

+0

うん..!実際には100GB以上です.1TBは私たちの目標です..! – Sri

+0

グーテンベルク全体を1つの7zipファイルで入手してください:http://www.gutenberg-tar.com/ – JoeRocc

答えて

8

どのような種類のテキストを検索しますか?会話、記事、本 - またはすべての良い普及? http://en.wikipedia.org/wiki/Wikipedia:Database_download

+0

Yep ...テキストファイルのanykindはOKです...はい..会話、記事、ドキュメンタリー、小説など.. ...! – Sri

+0

プロジェクトグーテンベルクがおそらく最善の賭けになるでしょう。そこには38,000余りの無料本があります。それらのほとんどはプレーンテキストファイルとしてダウンロードできます。 – Jordan

+0

もっと良い方法はありますか?各テキストファイルを1つずつダウンロードするのではなく、サイズが1GBの圧縮ファイルを入手できますか? – Sri

3

あなたは

+1

あなたは私に特定のリンクを提供していただけます..! n約230 GBのXML形式の圧縮ファイルを見ました。 http://en.wikipedia.org/wiki/Wikipedia:Database_download ..ダウンロードする前に私はそれの中に正確に何が入っているのか知りたいと思います。ps:意味のあるテキストファイルを探していますテキスト...会話、ドキュメンタリーなど...! – Sri

+0

これは実際にはWikimediaのダンプファイルのダンプファイルです。一般的にはWikipediaの記事がxml形式で格納されています。確認することができます。あなたに役立つと思います。 – vikky

関連する問題