webharvest

    1

    1答えて

    Web-Harvestを使用して、一部のWebページ「スクレイピング」を実行しています。私は整理する必要がある値のテーブルを持っています。テーブルはとてもシンプルです。ただし、各列のデータ型を判断するには、表の列見出しを使用する必要があります。表は、Web-収穫の例のように、私は、XQueryを使用している、と私はインデックスで値を取得する方法を知っているし、また、属性(クラス、IDを使用して..

    0

    1答えて

    私はオープンソースのWebスクレイピングツールであるweb harvest(http://web-harvest.sourceforge.net/)を使用しています。 私が使用しようとしている正規表現には、 "<"、 ">"文字が含まれています(これは、すべてのHTMLタグを取り除こうとしているためです)。これは、要素の内容が正しい形式の文字データまたはマークアップで構成されなければならないため、

    0

    1答えて

    次のコードを使用して解析するWebページを取得しようとしています。 <var-def name="parameter">value</var-def> <var-def name="url">http://www.example.com/script</var-def> <html-to-xml> <template> <http method="get" url="${

    -1

    1答えて

    私はからデータを取得するでしょうウェブサイトを構築したい を学ぶ: は*私の友人のFacebookのステータス *他のウェブサイト Unfortenatlyは、私がデータを収集する方法がわかりません。 誰かがブック\チュートリアルを推薦できますか?このフィールドを承認するには?

    0

    1答えて

    以下のコードをWebHarvest設定ファイルで使用して、WebHarvest(WebharvestはJakarta HttpClientを使用します)のhttp要素のタイムアウトを定義しています。 しかし、私はそれを20000に設定していますが、タイムアウトに達するまでには約40-50秒かかります! 私はそれを30000タイムアウトに設定しても、(私が待っていた少なくとも2分で)届くことはありま

    0

    2答えて

    http呼び出しでWebページをリクエストし、データを取得しようとしています。 私はクロームプラグインとのクロスオリジンを避けることができましたが、依然としてリクエストを行うと応答は常に「null」です。 角型アプリケーション内でhtmlページをjsonオブジェクトとして取得するにはどうすればよいですか? ngOnInit(): void { // Make the HTTP reque

    1

    2答えて

    Webページからデータを検索して抜き取ってデータベースに貼り付けるには、何が良いオープンソースのJavaライブラリですか? <tr><td><b>Address:</b></td> <td colspan=3>123 My Street </td></tr> 「住所:」たとえば、私のようなページがあったと仮定鍵ですが、私は実際には、間にhtmlタグとスペースの束を持っている「123マイ・ス

    2

    2答えて

    ウェブページの内容を読むのに助けが必要です。現在、私は内容を読むために次の方法を使用しています BufferedReader in = new BufferedReader(new InputStreamReader(page.openStream())); String inputLine; while ((inputLine = in.readLine()) != null) {Cont