以下の値としてヘッダーなどthead
、およびtbody
を持つ、私はどのように私は、これらすべての情報をこすりするPandas.read_html
を使用しないのpythonセレン掻き取りTBODY
<div class="data-point-container section-break">
# some other HTML div classes here which I don't need
<table class data-bind="showHidden: isData">
<!-- ko foreach : sections -->
<thead>...</thead>
<tbody>...</tbody>
<thead>...</thead>
<tbody>...</tbody>
<thead>...</thead>
<tbody>...</tbody>
<thead>...</thead>
<tbody>...</tbody>
<thead>...</thead>
<tbody>...</tbody>
<!-- /ko -->
</table>
</div>
をこすりしようとしているHTMLコードのですか?
EDIT:
これは私がこすりしようとしている、とのデータがパンダDATAFRAMEに抽出しているサイトです。 Link here
これは実際には仕様に違反しているので、 'table'に' thead'や 'tfoot'要素を複数持つことはできません:http://stackoverflow.com/a/16155425/771848。 – alecxe
完全な表を投稿できますか? - 少なくともいくつかの 'thead'と' tbody'が展開されました。 – alecxe
こんにちはalecxe、私は掻き寄せようとしているもののリンクを追加しました。 stackoverflowに置くにはあまりにも多くのHTMLコードがありますので、私はどのデータを取得しようとしているのかを表示するほうがよいかもしれないと考えました。 –