web-scraping

    1

    3答えて

    Inet in vb6を使用してHTMLページのコンテンツを取得し、そのコンテンツをTextBoxに入れる方法は?

    0

    1答えて

    私はPHP/cURLを使用してスクレーパーを作成しましたが、これはcURLでボトルネックはすばらしいですが、うまく機能します。 AFAIKでは、cURLの速度を向上させる方法はありませんが、より高速な他の言語/ライブラリを読んでいます。誰でもこの分野での経験がありますが、何%改善が期待できますか?たぶん25%未満の人にとっては問題にならないでしょう。 パラレルcronジョブの代わりに使用できますか

    0

    3答えて

    私はAsp.netとC#を使用していて、テキストファイルでwebrequestとwebresponseを使ってHTMLページのソースコードを取得できるようになりましたが、今ではソースコード全体ではなく要素やHTMLタグを取得したい、これで私を助けて??可能であれば、要素と値をmysqlデータベースに保存することができます。有用な参照リンクがあれば提案しますか?

    63

    8答えて

    Node.jsを使用してウェブサイトのコンテンツをスクラップするのは良いことでした私は非常に高速なものを構築してkayak.comのスタイルで検索を実行することができます。ここでは、1つのクエリがいくつかの異なるサイトに送られ、結果がスクラップされ、利用可能になったときにクライアントに返されます。 このスクリプトは結果をJSON形式で提供するだけで、ブラウザや他のWebアプリケーションで直接処理す

    0

    2答えて

    私は、URLを要求するフォームを持つ小さなアプリケーションをRoRに構築しています。 URLが入力され、送信ボタンが押されると、URLを取得してタイトル付きのレコードを作成するWebスクレイピングプラグインscrAPI(これは正常に動作しています)をダウンロードしました。 私の問題は、URLが有効で、scrAPIが処理できれば、すべてを動作させることができることです。入力されたURLが正常に動作し

    17

    5答えて

    サイトAのコンテンツ(特定のGoogle App Engineなど)をいくつかのバイト(正確には386個)で消費する最も倫理的な方法は何でしょうか。サイトBスクレイピングが意図されていないため、公共サービスのステータスを確認するだけで、現在はAPIを提供していません。したがって、のマークアップには、サイトAに必要な情報が含まれたJavaScript配列があり、アクセスできるようになると5分ごとに1

    0

    3答えて

    私はページをスクラップするためにPHPを使用しています。名前を表示したまま特定のクラスを持つdiv内のリンクを削除するにはどうすればよいですか? 任意の助け <p>Our list of teachers:</p> <div class="teacher"><a href="...">John Brown</a></div> <div class="teacher"><a href="..."

    1

    1答えて

    こんにちは、ありがとう、助けてくれてありがとう。 正直なところ私はXPathでの経験はあまりありません。私には、すぐに教えてくれることを願っています。 データのWebページをスクラップしています。私が必要とするデータの定義上の側面は、<tr>の行に含まれ、の要素が含まれています。各<td>要素には、インポートする必要があるデータの1つがあります。 CodePlexでHTML Agility Pac

    0

    2答えて

    私はJavaで試みたことのない新しいプロジェクトを開始しています。私は手で事前に研究しています。私の研究は、私が始めた場所よりもはるかに私を得ていません。 ウェブサイトを検索し、 対応するデータは、(基本的にはユーザーの入力は、その後、 対応する結果を返すクエリ のもと その検索エンジンの検索)を取得: は基本的に私のプロジェクトは、これを行います(値は0になり ユーザが結果 のいずれかをクリック

    2

    2答えて

    いくつかのWebページをスクラップし、それらからコンテンツを抽出する必要があります。私はいくつかの特定のキーワードを選択し、いくつかの関係b/wを持っているデータをマップすることを計画しています。しかし私にはアイデアはありません。私はそれをどうやってできるのですか?誰も私にそれを行うためのいくつかのアルゴリズムを提案することができますか? 例えば、私はリンゴに関するいくつかのウェブページをダウンロ