私のpythonレベルは初心者です。私は決してWebスクレーパーやクローラーを書いたことはありません。私はapiに接続し、私が望むデータを抽出するためのPythonコードを書いています。しかし、抽出されたデータの中には、著者の性別を取得したいものもあります。私はこのウェブサイトhttp://bookblog.net/gender/genie.php
を見つけましたが、欠点は利用可能なAPIがないことです。私はページ内のフォームにデータを送信し、戻り値のデータを抽出するためのPythonを書く方法を知りました。もし私がこれについていくつかの指針を得ることができれば、大きな助けになるでしょう。Webフォームからデータを送信し、結果を抽出します。
<form action="analysis.php" method="POST">
<textarea cols="75" rows="13" name="text"></textarea>
<div class="copyright">(NOTE: The genie works best on texts of more than 500 words.)</div>
<p>
<b>Genre:</b>
<input type="radio" value="fiction" name="genre">
fiction
<input type="radio" value="nonfiction" name="genre">
nonfiction
<input type="radio" value="blog" name="genre">
blog entry
</p>
<p>
</form>
結果ページのDOM::
<p>
<b>The Gender Genie thinks the author of this passage is:</b>
male!
</p>
私はeasy_install lxml.htmlをやってみましたが、次のエラーが発生しましたeasy_install lxml.html lxml.htmlを検索中 http://pypi.python.org/simple/lxml .html/ 'lxml.html'のインデックスページが見つかりませんでした(スペルが間違っている可能性があります) すべてのパッケージのインデックスをスキャンしています(少し時間がかかる場合があります) http://pypi.python.org/simple/ いいえローカルパッケージまたはlxml.htmlのダウンロードリンク エラー:Requirement.parse( 'lxml.html')の適切な配布が見つからない –
モジュールのインポートでは、2つの名前の間に '.'があると、 2番目の名前は前の名前の範囲内です。インストールするモジュールはlxmlです。 – Acorn
コメントした後に私はそれを実現しました。ありがとうagianl –