2012-04-14 8 views
0

私はこの種のことは初めてですが、特定のサイトをクロールして別のサイトを更新するボットを作成したいと思います。統計情報)を数時間に1回程度、自動アップデータ(bot)を実装するにはどうすればよいでしょうか

私はボットのコーディングに問題があるとは思わない。私は主にjava(Firefoxナビゲータプラグイン、Java HTTPリクエスト、単純な古いRobotクラス)のようなものを手掛かりにしています。

私がアドバイスを求めるのは、コード

私は自分自身を購入することができます(最終的に必要です)、どこかでホストすることができます。このサービスを信頼できる形で提供するオンラインの場所がありますか?無償)?

どのようにいくつかの一般的な設定がありますか?私はJavaでもっと快適ですが、どの言語を使用してもわかります。スレッド?Pardon myもしそれがひどい解決策であれば無知ですが、私は率直に言ってこの問題について経験はありません。私はLAMPスタックのような完全なものが必要か、それともすべてがなくても快適に暮らせるのですか?私はこれを行うことができる比較的簡単な方法は何ですか?

答えて

1

ボットでサイトをクロールするには、JsoupまたはSelenium 2のいずれかを使用することをおすすめします。 自分のマシンでクロールしますが、サーバーやアプリケーションにその情報を投稿する必要がある場合は、そのためのサーバーが必要です。

一般的に、この種のタスクは、「クーロンジョブ」または「クーロン」と呼ばれます。

クローラが24時間稼働している場合は、デーモンを呼び出しました。

cronの場合、何らかのスケジューリングが必要です(頻繁に実行する必要があります)。 Linuxを使用している場合は、crontabが解決策です。テキストファイルでは、プログラムが実行されるときに指定します(毎n分、毎日、特定の日や特定の月の特定日など)、OSはプロセスを自動的に実行します。

OSがプログラムの新しいインスタンスを毎回起動するので、このようにしてプログラムは仕事をして終了します。

もしあなたがLinuxを持っていなければ、私は窓の選択肢があると確信しています。そうでなければ、そのために使用できるjava用のQuartzというフレームワークがあります。

唯一の問題は、Quartzがクラスを時々呼び出すことを除いて、Javaプログラムが24時間365日実行されることです。

関連する問題