指定されたWebページ上の数字を読み込んで、あとで分析するためにそのデータを保存するコンテンツ収集プログラムを構築する必要があります。私はリンクや関連データを検索する必要はなく、毎日コンテンツが変化するウェブサイトからすべてのデータを収集するだけです。Webクローラーの理想的なプログラム言語は何ですか?
私はプログラミングの経験はほとんどありません。学習にはこれがうまくいくと思います。速度は大きな問題ではありません。私は、クローラが最大で1日に4000ページを読み込む必要があると推定しています。
ありがとうございました。
編集:データを収集しているウェブサイトがクローラから保護されているかどうかを事前に確認する方法はありますか?
ウェブサイトはクローラから自分自身を守ることはできませんが、クローラはRobots Exclusion Protocolに従うことを尊重しており、クライアントはウェブサイトの利用規約に従うことに誠意を持っています。 –
私はあなたに同意します。 – alamar
ウェブ上のほとんどのものは、プログラミングクローラー向けにJavaを生み出しています。 Javaは複雑すぎるのですか?それとも何が問題なの? – Alex