可能性の重複:
Looking for dataset to test FULLTEXT style searches on巨大なテキストファイルはどこにありますか?
私はテストのために、プレーンテキストの100ギガバイトを必要のあるデータマイニングのプロジェクトにに最近だが...私は検索の疲れネット一日中。誰かが私がそのようなテキストファイルをダウンロードできるリンクを提供することによって私を助けてください。ありがとう。
可能性の重複:
Looking for dataset to test FULLTEXT style searches on巨大なテキストファイルはどこにありますか?
私はテストのために、プレーンテキストの100ギガバイトを必要のあるデータマイニングのプロジェクトにに最近だが...私は検索の疲れネット一日中。誰かが私がそのようなテキストファイルをダウンロードできるリンクを提供することによって私を助けてください。ありがとう。
どのような種類のテキストを検索しますか?会話、記事、本 - またはすべての良い普及? http://en.wikipedia.org/wiki/Wikipedia:Database_download
あなたは
あなたは私に特定のリンクを提供していただけます..! n約230 GBのXML形式の圧縮ファイルを見ました。 http://en.wikipedia.org/wiki/Wikipedia:Database_download ..ダウンロードする前に私はそれの中に正確に何が入っているのか知りたいと思います。ps:意味のあるテキストファイルを探していますテキスト...会話、ドキュメンタリーなど...! – Sri
これは実際にはWikimediaのダンプファイルのダンプファイルです。一般的にはWikipediaの記事がxml形式で格納されています。確認することができます。あなたに役立つと思います。 – vikky
http://dumps.wikimedia.org/あなたがダウンロード100ギガバイトのテキストファイルをしようとしています使用する必要があります。 http://www.gutenberg.org/
ウィキペディアはまた、あなたが記事のアーカイブをダウンロードすることができます:
プロジェクト・グーテンベルクは良いスタートかもしれません。 .... – vikky
うん..!実際には100GB以上です.1TBは私たちの目標です..! – Sri
グーテンベルク全体を1つの7zipファイルで入手してください:http://www.gutenberg-tar.com/ – JoeRocc