2017-02-15 14 views
1

私は、2つの変数の1つにURLのみを含むdata.frameを持っています。 これらのURLを使用して、それらのすべてをスクラップし、それぞれの人物から関連するテキスト情報を抽出し、テキストフレーム分析を準備するためにデータフレームに変数を追加したいと思います。言い換えれば変数からのWebスクレイピング

FAO_CountryName  FAO_CountryURL 
Algeria    http://www.fao.org/giews/countrybrief/country.jsp?code=DZA 
Egypt    http://www.fao.org/giews/countrybrief/country.jsp?code=EGY 

、私はread_html()コマンドを介してそれらをこすりことができるとファッションに適切なHTMLページとしてそれらのURLを検討する方法を見つけるしたいと思います。私たちは、最初の 特定のURLから私たちが望む情報を収穫するための関数を定義

FAO_CountryName  FAO_CountryURL            FAOText 
Algeria    http://www.fao.org/giews/countrybrief/country.jsp?code=DZA  Algeria is an interesting country 
Egypt    http://www.fao.org/giews/countrybrief/country.jsp?code=EGY  Egypt is interesting as well but in a different way 

答えて

0

library(rvest) 
scrapeFAO <- function(x) { 
    as.character(x) %>% 
     read_html() %>% 
     html_nodes('.Normal') %>% 
     .[1] %>% 
     html_text() 
} 

scrapeFAO("http://www.fao.org/giews/countrybrief/country.jsp?code=DZA") 
# [1] "Reference Date: 24-November-2016" 

アイデアは、プロセスの最後に、このような何かを持っているだろう

これは単なる例であり、実際にそのページに必要な要素を収穫することができます。 Pls rvestパッケージの詳細については、こちらをご覧ください。おそらくそれを行うには、より効率的な方法があることを

final <- cbind(mydf, apply(mydf[2],1, scrapeFAO)) 

注:初期dataframe

その後、我々は、それぞれの行には、この機能を適用したいとcbind結果。

希望これは

+0

Plsのは、それゆえ私はどうやら、まだ十分な評判を持っていない、あなたはそれが他の人に – GGamba

+0

を助けるかもしれないと思うならば、私はスタックに新しいです答えを受け入れ、upvoting考えることができます。 もう少し手に入れてすぐにやります。 – Ileeo

+0

こんにちは、ありがとうございました。 さまざまなURLを検討するためのスクリプトがあります。とにかく、私は数式が各行に適用されるべき方法を得ていません - とにかく私のFAO_dataデータフレームでは機能しないようです。 明確にしてください。再度、感謝します。 – Ileeo

関連する問題