html-parsing

2熱

1答えて

関連するすべてのスレッドを読み込んだ後、正規表現がHTMLコンテンツ内から完全なjsonオブジェクトを抽出できるように見えないので、誰かが正しい正規表現を得るのを助けることを望みます問題。は、例えば抽出するために探してJSONイムは、次のようになります。 "taxonomy": {"page":"/products/1/","price":"350.00","country_code":"gb"

1熱

1答えて

ラテン文字にrのhtmlparseを使用すると問題が発生する

ポルトガル語で政府のページをウェブスクレイプしようとすると、エンコードの問題が発生します。私はhtmlParseへencoding="latin1"とencoding="UTF-8"を追加し、getURLへ.encoding="latin"と.encoding="UTF-8"の追加など、いくつかのことを試してみた library("RCurl") library("XML") html =

0熱

1答えて

ウェブスクラップしたhtmlテーブルに属性を含める方法

私はrvestを使用して内部ウェブサイトのHTMLテーブルからデータをスクラップしています。行の色は意味があるので、BGCOLOR属性を最終表の列として抽出しますが、もちろんhtml_table()は内容を抽出するだけです。これまで私がこれまで持っていたことは次のとおりです。 htmlテーブルのスニペットは次のとおりです。色の列を含めるにはどうすればよいですか？ html_nodes(sampl

0熱

2答えて

Jsoup、解析htmlのロードされたAjaxのテーブル

私はアヤックスがロードされているテーブルの解析に問題があります：私は何を得るのです Document doc = Jsoup.connect("http://lfl.ru/club553").get(); ： <div class="tournament_stats_table_tournament_3442 tournament-stats-table" style="display: bl

0熱

1答えて

1つの関数内で複数のデータを削り取る

ページが改ページされたときにループする方法を知っていますが、複数の情報/ html_nodesを1つのループ関数で削りたいと思っています。これまで私は以下のことを試みました。基本的に求職者のウェブサイトで、会社名、会社の説明、オープンポジションの番号が必要です。私はsprintfを使用して1-14ページを取得します。 urlingtek <- sprintf("https://www.jobin

1熱

1答えて

PHPのsimple_html_domパーサーでエラー

PHPの専門家。 simple_html_domクラスの使用中にエラーが見つかりました。私のHTML文字列を解析する必要があります。私が見つける（「メタ[名=画像]」）でメタタグという名前の画像を取得しようとしました <!DOCTYPE html> <html lang="en"> <head> <title>Y-shaped ZnO Nanobelts Driven from Twinn

0熱

2答えて

美味しいスープWikipidiaネストしたテーブル

私は美味しいスープとネストしたテーブルを使い慣れていないので、私はウィキペディアのテーブルを掻き集める経験を得るようにしています。私はウェブ上の良い例を探しましたが、残念ながら何も見つかりませんでした。私の目標は、このweb pageの「アメリカの国」という表をパンダで解析することです。私のコードからわかるように、以下の問題があります。 1）すべての列を抽出できません。どうやら私のコードでは、

-6熱

1答えて

ウェブサイトからのテキストとリンクを取得できませんjsoupを使用したhtml解析

私の質問は、画面上に出力されています。私はテーブルクラス= "gallerybig"からテキストとリンクを取得できません。ご質問がわからない場合は、[email protected]までご連絡ください。コードのolxリンクを参照してください。そして、ソースコードをチェックしてください。画像リンクを確認してください。 I want to get text and link from each

0熱

1答えて

ウェブページとJsoupレスポンスのHTMLが同じではない

Connection.Response loginResponse = Jsoup.connect("https://users.premierleague.com/accounts/login/") .userAgent("Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTM

0熱

2答えて

異なるレイアウトのウェブサイトから記事コンテンツを抽出する方法

私は、さまざまな代理店によって発行された1,000件の記事のURLリストを持っています。もちろん、それぞれに独自のHTMLレイアウトがあります。私は各URLから記事の本文のみを抽出するPythonコードを書いています。これはによってのみ行われます。<> </p>段落タグをご覧ください。コンテンツが不足していますか？このアプローチでは無関係なコンテンツを含めることができますか？あなたの質問に答え