html-parsing

0熱

1答えて

問題：私はこのような表形式のテキストのファイルをHTMLコードを解析し、取得したい： East Counties Babergh, http://ratings.food.gov.uk/OpenDataFiles/FHRS297en-GB.xml, 876 Basildon, http://ratings.food.gov.uk/OpenDataFiles/FHRS109en-GB.xml,

0熱

1答えて

Pythonパーサーの出力なし

一般に、私はこのサイトから少なくともいくつかのタグを取得しようとし、常にnoneを返します。私はこれをどのように修正するのか分かりません。ボタンがあります。チケットを横から押した後に追加のパネルがあるので、解析したいのですが、わかりません。私が理解しているように、このタブはクリック直後にロードされません。次に何をするのか分かりません。 P.S.ちょうどそれを学び始めた。 Webページhttp:/

2熱

1答えて

JSoupでGoogle検索結果を取得する

JSoupでGoogle検索結果のリストを取得しようとしています。私が現在使っている方法は最初のページ（n）では完璧に動作しますが、n + 1ページではうまく動作しません。ここでは、私が最初のページを取得しています方法です：最初のページのhttps://www.google.com/search?q=apple： doc = Jsoup.connect(search).userAgent("Chr

0熱

1答えて

このxpath式で内部HTMLコンテンツを取得するにはどうすればよいですか？

は私が Notice how it has and tags being used inside. マイXpath式.// Pを抽出しようとしています、上記のHTMLスニペットで一部のHTMLコード <li><h3>Number Theory - Even Factors</h3> <p lang="titl

0熱

3答えて

Rとセレクタガジェットを使ったWebスクレイピング

a websiteからRを使用してデータを削り取ろうとしています。rvestを使用して、an example scraping the IMDB page for the Lego Movieを模倣しようとしています。この例では、Selector Gadgetというツールを使用して、取得しようとしているデータに関連付けられているhtml_nodeを簡単に識別できるようサポートしています。 rank

0熱

2答えて

PHPでHTML DOMを解析する

PHPを使用して、次のHTMLのレコードを変数に読み込みたいとします。これを行う最善の方法は何ですか？ HTMLの例は2つのレコードを表します。レコードの1のための結果： rank = 1 tag = LLG8V2QQ name = Pat level = 11 league = 1 trophies = 4154 don

0熱

1答えて

beautifulsoup 1行に改行をパーズします

タグからデータを抽出して、1行にtxtファイルとして保存しようとしています。たとえば： text1, text2, text3 条件は、「役員」またはオペレータまでの「企業参加者」の間にあります。 htmlタグの例： Executives <p class="

0熱

1答えて

HtmlAgilityPack LoadHtml Unauthorized 401

私たちはイントラネットサイトでの解析を試みています。 html応答はOKです。問題は、文字列htmlをクラスHtmlDocumentにロードすることです。私たちは401 Unauthorizedステータスを取得しています。私が理解できないのは、文字列からロードするときにhttpリクエストがない場合、なぜこのステータスになっているかです。次のように私たちのコードは次のとおりです。 ......

0熱

1答えて

beautifulsoupの解析htmlタグの例外

htmlファイルからいくつかの情報を抽出しています。しかし、いくつかのファイルは、タグ内ではありません AttributeError: 'NoneType' object has no attribute 'strip' を返すタグ date 、およびファイルのいくつかの日付を持っていません。 <time content="2005-11-11T19:0

0熱

1答えて

Htmlparser2は、リンクを取得し、それらのリンク（node.js）を解析します。

私は、HTMLページを解析するためにnodejsでhtmlparser2を使用しています。あるページを解析して、他のページへのリンクを取得します。それから私はそのリンクの他に必要な情報を得るために、それらのリンクを解析したいと思います（解析関数は最初の解析ページと同じではありません）。私の問題は、複数のページを解析する方法がわかりません。リンクを配列に入れてそれをループし、各ページのパーサーを呼