null値をレンダリングし、Htmlページにテキストがない場合は、Pythonのリストに追加する方法が必要です。次のようにHTMLページにテキストが見つからない場合、Pythonでnull値を出力する方法は?
HTMLでレンダリングされた生データは、次のとおり
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">TICKER: </SPAN><SPAN CLASS="c2">FB (NASDAQ) (57%); </SPAN><SPAN CLASS="c4">AXP</SPAN><SPAN CLASS="c2"> (NYSE) (54%)</SPAN></P>
</DIV>
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">INDUSTRY: </SPAN><SPAN CLASS="c2">NAICS511110 NEWSPAPER PUBLISHERS (61%); SIC2711 NEWSPAPERS: PUBLISHING, OR PUBLISHING &</SPAN></P>
</DIV>
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">LOAD-DATE: </SPAN><SPAN CLASS="c2">November 7, 2016</SPAN></P>
<!-- Hide XML section from browser
</DOCFULL>
</DOC> -->
<DIV CLASS="c10"> </DIV>
<A NAME="DOC_ID_0_2"></A><!-- Hide XML section from browser
<DOC NUMBER=3>
<DOCFULL> -->
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">TICKER: </SPAN><SPAN CLASS="c2">CS (PAR) (91%); AXJ (ASX) (91%); AXA (BIT) (91%); </SPAN><SPAN CLASS="c4">AXP</SPAN><SPAN CLASS="c2"> (NYSE) (57%)</SPAN></P>
</DIV>
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">COUNTRY: </SPAN><SPAN CLASS="c2">UNITED KINGDOM (88%)</SPAN><SPAN CLASS="c2"> </SPAN><SPAN CLASS="c2">United Kingdom GB</SPAN></P>
</DIV>
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">REGION: </SPAN><SPAN CLASS="c2">Europe; EU; Western Europe</SPAN></P>
</DIV>
<BR><DIV CLASS="c5"><P CLASS="c6"><SPAN CLASS="c8">LOAD-DATE: </SPAN><SPAN CLASS="c2">May 12, 2016</SPAN></P>
Iは、インの間にあるタグ、テキスト値を記述する必要があります。 TICKER
,INDUSTRY
,COUNTRY
,REGION
およびLOAD-DATE
を2つの別々のリストに分類する。
TICKER
、INDUSTRY
とLOAD-DATE
を含むように1つのニーズを設定します。- セット2には、
COUNTRY
とREGION
が含まれている必要があります。
COUNTRY
がテキストから欠落している場合は、私が対応するリストにNull
値を含むエントリを追加する必要があります。
例
- 第一のHTMLタグリストは、
COUNTRY
を含んでいない、などNULL
格納されるべき - 第二のHTMLタグリストは、
COUNTRY
を含有しない、などUnited Kingdom
が格納されるべきです。
結果になる必要があります。次のように私が試してみました
['Null', 'United Kingdom\nUnited Kingdom GB']
ソリューションは、以下のとおりです。
countrypattern="\<SPAN CLASS=\"c8\"\>COUNTRY: </SPAN><SPAN CLASS=\"c2\"\>(.*)\</SPAN>"
countrypatternvalues=[a.strip("*") for a in re.findall(countrypattern,response)]
if not countrypatternvalues:
countrypatternvalues.append(None)
countryvalues = re.sub(cleanr, '', str(countrypatternvalues))
私はこの問題を解決してください。
そのHTMLは*恐ろしい*です。なぜすべての帽子?なぜ各DIVの前にBRがあるのですか? –
しかし、HTMLを解析するために正規表現を使用しようとしているのではないでしょうか。 –
返信いただきありがとうございます。その場合、私の必要条件に合った適切な解決策を教えてください。 – Mho