2015-12-17 9 views

答えて

2

訪問したURLを何らかの並べ替えで保存している場合は、URLが既に訪問されているかどうかを確認することができます。

+0

このため、phpcrawlには組み込み機能はありませんか?私は大規模なクロールのためにメモリーをすばやく使い果たしてしまったと思っていますが、もう一度大規模にクロールするためのより強力なソフトウェアに移行する必要があります。 –

+1

RAMは安い(一般的に言えば)。それは、http://php.net/SplFixedArrayが使用されるかもしれないと言われています。 http://stackoverflow.com/questions/10434913/accessing-big-arrays-in-phpにはこれについての読者がいくつかあります。クロール時間が長くても問題がない場合は、ファイルシステムを使用して、各ドメインをjson配列を含むファイルに配置し、そのように処理することもできます。それは遅くなりますが、メモリの消費量は少なくなります。 –

関連する問題