私はhtmlファイルを解析していますが、「Smaller Reporting Company」と書かれているファイルの部分を見つけてその隣に「X」または「チェックボックス」があります。このチェックボックスは通常、WingdingsフォントまたはASCIIコードで行われます。下のHTMLには、それの横に羽の中にþ
があることがわかります。Python BeautifulSoup特定のテキストを解析しています
テキストの正規表現検索の結果を表示するのに問題はありませんが、次のステップに進んでチェックボックスを検索するのに問題があります。
私はこれを使用して、すべて同じフォーマットに従わない多くの異なるHTMLファイルを解析しますが、大部分はこの例のようにテーブルとASCIIテキストを使用します。ここで
は、HTMLコードである:ここで
<HTML>
<HEAD><TITLE></TITLE></HEAD>
<BODY>
<DIV align="left">Indicate by check mark whether the registrant is a large accelerated filer, an accelerated filer, a non-accelerated filer, or a smaller reporting company. See the definitions of “large accelerated filer,” “accelerated filer” and “smaller reporting company”. (Check one):
</DIV>
<DIV align="center">
<TABLE style="font-size: 10pt" cellspacing="0" border="0" cellpadding="0" width="100%">
<!-- Begin Table Head -->
<TR valign="bottom">
<TD width="22%"> </TD>
<TD width="3%"> </TD>
<TD width="22%"> </TD>
<TD width="3%"> </TD>
<TD width="22%"> </TD>
<TD width="3%"> </TD>
<TD width="22%"> </TD>
</TR>
<TR></TR>
<!-- End Table Head -->
<!-- Begin Table Body -->
<TR valign="bottom">
<TD align="center" valign="top"><FONT style="white-space: nowrap"> Large accelerated filer <FONT style="font-family: Wingdings">o</FONT></FONT>
</TD>
<TD> </TD>
<TD align="center" valign="top"><FONT style="white-space: nowrap">Accelerated filer <FONT style="font-family: Wingdings">o</FONT></FONT>
</TD>
<TD> </TD>
<TD align="center" valign="top"><FONT style="white-space: nowrap"> Non-accelerated filer <FONT style="font-family: Wingdings">o</FONT> </FONT>
<FONT style="white-space: nowrap">(Do not check if a smaller reporting company)</FONT>
</TD>
<TD> </TD>
<TD align="center" valign="top"><FONT style="white-space: nowrap"> Smaller reporting company <FONT style="font-family: Wingdings">þ</FONT></FONT></TD>
</TR>
<!-- End Table Body -->
</TABLE>
</DIV></BODY></HTML>
は私のPythonコードは次のとおりです。
import os, sys, string, re
from BeautifulSoup import BeautifulSoup
rawDataFile = "testfile1.html"
f = open(rawDataFile)
soup = BeautifulSoup(f)
f.close()
search = soup.findAll(text=re.compile('[sS]maller.*[rR]eporting.*[cC]ompany'))
print search
質問:私が最初に依存している2番目の検索を持っているために、これを設定することができどのよう サーチ?だから、私が「小規模の報告会社」を見つけると、次の数行を検索してASCIIコードがあるかどうかを調べることができます。私はスープ文書を見てきました。私はfindとfindNextをしようとしましたが、動作させることができませんでした。
を、私はあなたが修正されている必要があることを賭ける_ X 『やチェックボックスの横、「持っています』それに "_から_"には "X" ** ON **チェックボックスがあります。これは私を困惑させ、あなたの質問に対する私の理解を悩ませました。あなたはよく理解されることを気にしない? – eyquem
_ "下のHTMLでは、その横にwingdingsがあることがわかります。どこ? – eyquem
「ASCIIコード」とは何ですか?それはoとþですか? – eyquem