巨大なテキストファイルはどこにありますか？

可能性の重複：
Looking for dataset to test FULLTEXT style searches on 巨大なテキストファイルはどこにありますか？

私はテストのために、プレーンテキストの100ギガバイトを必要のあるデータマイニングのプロジェクトにに最近だが...私は検索の疲れネット一日中。誰かが私がそのようなテキストファイルをダウンロードできるリンクを提供することによって私を助けてください。ありがとう。

出典

2012-02-07 Sri

http://dumps.wikimedia.org/あなたがダウンロード100ギガバイトのテキストファイルをしようとしています使用する必要があります。 http://www.gutenberg.org/

ウィキペディアはまた、あなたが記事のアーカイブをダウンロードすることができます：

プロジェクト・グーテンベルクは良いスタートかもしれません。 .... – vikky

うん..！実際には100GB以上です.1TBは私たちの目標です..！ – Sri

グーテンベルク全体を1つの7zipファイルで入手してください：http://www.gutenberg-tar.com/ – JoeRocc

どのような種類のテキストを検索しますか？会話、記事、本 - またはすべての良い普及？ http://en.wikipedia.org/wiki/Wikipedia:Database_download

出典

2012-02-07 07:32:08 Jordan

Yep ...テキストファイルのanykindはOKです...はい..会話、記事、ドキュメンタリー、小説など.. ...！ – Sri

プロジェクトグーテンベルクがおそらく最善の賭けになるでしょう。そこには38,000余りの無料本があります。それらのほとんどはプレーンテキストファイルとしてダウンロードできます。 – Jordan

もっと良い方法はありますか？各テキストファイルを1つずつダウンロードするのではなく、サイズが1GBの圧縮ファイルを入手できますか？ – Sri

あなたは

出典

2012-02-07 07:40:39 vikky

あなたは私に特定のリンクを提供していただけます..！ n約230 GBのXML形式の圧縮ファイルを見ました。 http://en.wikipedia.org/wiki/Wikipedia:Database_download ..ダウンロードする前に私はそれの中に正確に何が入っているのか知りたいと思います。ps：意味のあるテキストファイルを探していますテキスト...会話、ドキュメンタリーなど...！ – Sri

これは実際にはWikimediaのダンプファイルのダンプファイルです。一般的にはWikipediaの記事がxml形式で格納されています。確認することができます。あなたに役立つと思います。 – vikky

巨大なテキストファイルはどこにありますか？

答えて

関連する問題