URLを抽出しようとしているウェブページを解析しようとしています。ルート要素に続く文書のマークアップは整形式である必要があります。事前にウェブページを修正できません。
[...]
var html = UrlFetchApp.fetch('https://cse.google.com/cse?q=example&cx=006680642033474972217%3A6zo0hx_wle8#gsc.tab=0&gsc.q=example&gsc.page=1').getContentText();
var doc = XmlService.parse(html);
[...]
このコードでURLは一例であり、将来的には単語「例」、両方の出現で、何か他のものかもしれません。
コードを実行すると、XmlService.parse()が失敗し、タイトルにエラーが表示されます。
私は、ウェブページにはいくつかのマークアップが混乱していることを認識しています。
問題は、URLFetchApp.fetch()が私に与えるすべてのものを処理する必要があるため、マークアップを一度修正して他の場所の問題を解決できないという問題です。
文書全体を解析する必要がないので、実際に確認する必要のないマークアップエラーが文書の一部にある場合は、気にする必要はありません。
マークアップエラーを自動的に修正する方法はありますか?
また、先頭以外の部分(特にgsc-results gsc-webResult
)から解析を開始することは可能ですか?
ご清聴ありがとうございました。
EDIT:()が正常にWebページを解析しますが、結果はこれですXml.Parseを使用することにより
。
<?xml version="1.0" encoding="UTF-8"?><body><noscript><h3>Google Custom Search requires JavaScript</h3><p>JavaScript is either disabled or not supported by your browser. To use Custom Search, enable JavaScript by changing your browser options and reloading this page.</p></noscript><div id="cse-hosted"><div id="cse-header"><a href="#" id="cse-logo-target" shape="rect"/><div id="cse-logo"><span class="lockup-logo"/> <span class="lockup-text"><span class="lockup-brand"> Custom Search</span></span></div><div id="cse-search-form">Loading</div></div><div id="cse-body"><div id="cse">Loading<div class="gsc-adBlock gsc-imageResult-classic gsc-imageResult-column gsc-clear-button gsc-branding hidden"/></div></div><div id="cse-footer">© 2017 Google</div></div></body>
これは私が期待している結果ではありません。 この問題を解決するにはどうすればよいですか? ありがとうございます。あなたは、XMLサービスサービスに渡しているコンテンツはそれほどXHTMLされていないため、
parse()メソッドに渡すパラメータが無効なxmlであるため、エラーです。 –
以下の答えで示唆されているように、 'XmlService.parse(html)'呼び出しを 'Xml.parse(html、true)'で置き換えることができます。 – sideshowbarker
編集を表示します。 。 –