傷ついたウェブページからの値を抽出する

私の古い脳が一匹になってしまったのは、pythonを使った最初の試みでした。傷ついたウェブページからの値を抽出する

私はpycurlを使ってntlmプロキシをログし、ページをスクラップしてから、結果をあらかじめ確認するためにbeautifulsoupを使いました。

私はprettify出力から3つの値を抽出し、それらを変数として保存します。ページは動的に生成され、ページ上の位置が変化し続ける。 3つのラベルはページ上に一度だけ表示され、それぞれの値と比較した位置は一定です。

prettify出力からValue1、Value2、Value3をどのように抽出し、変数として保存するのですか。

これら3つのオンライナーは、私がパイソンで行う必要があるものです。

grep -A 3 "Label1" prettify.txt | tail -n 1 | awk '{print $ 1}'

grep "Label2" prettify.txt | awk '{print $ 3}'

grep -B 4 "Label3" prettify.txt | awk '{print $ 1}' RS = [FS =] |私は、ページが、その後に、タプル内の検索機能を使用丸まってきた場所の前に尾-n 1

エキス1

<b> 
    <font color="Red"> 
    Label1 
    </font> 
    <font color="blue"> 
    Value1 
    </font> 
    </b> 
    <br /> 
    Label2: Value2 
    <br />

抽出物2

<li> 
    <font color="green"> 
     [value3] 
    </font> 
    <font color="red"> 
     Label3 
    </font> 
    </li>

出典

2012-01-19 newb

どういうところですか？どのコードを試しましたか？何がうまくいかない？ –

質問：Prettify出力からValue1、Value2、Value3を抽出し、変数として保存するにはどうすればよいですか。 – newb

ヒント：**アップデート**質問は期待通りです。コメントは単に質問を繰り返すだけなので、役に立たない。 –

は、私はいくつかのハックコーディングを行ってきました残りのコンテンツからデータを取り除くためです。このように：

resultant_value = result[result.find(beginning_location):result.find(ending_location)]

変数beginning_location、それが変数resultant_valueに取り除かと配置されるようending_location値の開始および終了時に特定のユニークな指標とすることができます。私のハッキリした方法が何らかの方法で助けてくれることを願っています。

出典

2012-01-19 04:03:30 sbrichards

私はそれを動作させることができます場合はありがとうございます。まずプログラミングをして、読み込みロットがほとんど達成されないようにしてください。 – newb

運が良かった！あなたが助けを必要とするならば、私に電子メールを撃つsbrichards [at] mit.eduと悪い試みと助け:) – sbrichards

傷ついたウェブページからの値を抽出する

答えて

関連する問題