beautifulsoup

1熱

1答えて

python string find関数がbeautifulsoupから返されたテキストから位置を指定しない

10-Kファイルのセクションをスクラップしようとしています。私は「項目7（a）」の位置を特定するのに問題があります。 beautifulsoupが返すテキストから、その中に単語を持つことを促します。しかし、次のコードは、 'Item 7（a）'を含む文字列に対して機能しています。 import urllib2 import re import bs4 as bs url=https://ww

0熱

1答えて

複数のWebページをPythonで削る

from bs4 import BeautifulSoup import urllib, time class scrap(object): def __init__(self): self.urls = ['https://www.onthemarket.com/for-sale/property/wigan/', 'https://www.onthemarket.co

1熱

1答えて

Beautifulsoupでタグの子を抽出する方法は？

私は、次のコードを持っていると私は、pタグを抽出するために <p><strong>1. Start big</strong><br><br> Make a slam dunk right away. Boom! Just do it! Start strong! If you’re making a list article about poodle outerwear, don’t save

1熱

2答えて

BeautifulSoupでウェブサイトをスカルプしてIOErrorをスローする

こんにちは、次のWebサイト（）に掲載されているすべてのファイルを、Python、Juliaなどの言語スクリプトを使用してダウンロードします。以前はhttpのWebサイトになっていましたが、BeautifulSoupは問題なく動作していました。それは今ではhttps私のコードのウェブサイトは残念ながらもはや働いていません。私はダウンロードを希望するすべてのファイルが「」タグであり、クラスの「ダウ

0熱

1答えて

Webページの隠しテキストを無効にすることはできませんか？

私は、UDEMYコースからフルカリキュラムを得るためのウェブスクレーパーを開発していました。私は美しいスープを使用し、Pythonでリクエストします。ページのいくつかは、カリキュラムの最後のセクションが折りたたまれているため、クリックして展開する必要があります。どのようにカリキュラム全体を抽出するのですか？ URL：https://www.udemy.com/python-the-complete

1熱

2答えて

[Python3x]：別々に2つの値を抽出するにはどうすればいいですか？

これは別に（緯度、経度）持ちたい値（座標）です。 <input id="dokad" value="51.819544, 19.30441" type="hidden"> 私はそのように実行します。 lat_lon = soup.find('input', attrs={'id':'dokad'}).get('value') 結果： lat_lon Out[1012]: '51.1861

1熱

2答えて

コンマで区切られた段落を抽出するには？

これはデータを取得しようとしているコードです。 <p>ul. Niecała 10</p> <p>05-800 Pruszków</p> </div> 私はそれをこのようになかった：残念ながら、結果は私を満たしていない address = result.find('div', attrs={'class': 'section address'}).get_text() 。段落のテキス

0熱

2答えて

BeautifulSoupデータアジドを見つけよう

私は美容院を使って不動産販売サイトを掻き集めるpythonスクリプトを持っています。私はHTMLからベッドの数を取得しようとしています。検索結果のリストごとにdata-reactidが変更されます。番号11606747はユニークです。私はこの例ではベッド数= 3を返すために "* $ beds.0.0"のワイルドカード検索を試みています。エラーメッセージはありません。コードは実行されますが

0熱

1答えて

BeautifulSoupで入力タグからsrcを抽出するには

入力タグからsrcを抽出したいのですが、私がbeautifulsoup結果を取得したら、srcは無視されます。 for i in soup_image.find_all('input'): print(i) 私は、srcの値を取得したいです。ただし、結果では値は無視されます。これは元のタグです（ブラウザで調べます）。 <input src="https://www1.wi.to/

0熱

1答えて

スクレープテーブル：キャプションブラインド

私はページからテーブルを掻いています。しかし、表のキャプションは「ブラインド」です。サイトからテーブルを抽出する方法はありませんか？以下のようなBeautifulSoupを使用して： from urllib.request import urllib from bs4 import BeautifulSoup