wikipediaからpdfファイルをダウンロード

ウィキペディアは、すべての記事にリンクを提供しています（pdfとして記事をダウンロードしてください）。私は最初にWikipediaのリンクを取得してレンダリングリンクを出力する小さなHaskellスクリプトを書いた。私はレンダリングURLを入力として与えていますが、空のタグを取得していますが、ブラウザの同じURLにダウンロードリンクがあります。wikipediaからpdfファイルをダウンロード

誰かがこの問題を解決する方法を教えてください。コードはideoneです。

import Network.HTTP 
import Text.HTML.TagSoup 
import Data.Maybe 

parseHelp :: Tag String -> Maybe String 
parseHelp (TagOpen _ y) = if any (\(a , b) -> b == "Download a PDF version of this wiki page") y 
         then Just $ "http://en.wikipedia.org" ++ snd ( y !! 0) 
        else Nothing 


parse :: [ Tag String ] -> Maybe String 
parse [] = Nothing 
parse (x : xs) 
    | isTagOpen x = case parseHelp x of 
       Just s -> Just s 
       Nothing -> parse xs 
    | otherwise = parse xs 


main = do 
    x <- getLine 
    tags_1 <- fmap parseTags $ getResponseBody =<< simpleHTTP (getRequest x) --open url 
    let lst = head . sections (~== "<div class=portal id=p-coll-print_export>") $ tags_1 
     url = fromJust . parse $ lst --rendering url 
    putStrLn url 
    tags_2 <- fmap parseTags $ getResponseBody =<< simpleHTTP (getRequest url) 
    print tags_2

出典

2011-09-08 keep_learning

：

ここでリダイレクトをサポートしてStringにURLをダウンロードするための迅速かつ汚い機能です// www.youtube.com/watch?v=juBDM3fb-i0 –

あなたはwgetのようないくつかの外部ツールからURLを要求しようとした場合、あなたはウィキペディアは直接結果ページを提供していないことがわかります。実際には302 Moved Temporarilyリダイレクトを返します。

ブラウザにこのURLを入力すると、ブラウザが自動的にリダイレクトに従うため、このURLを入力すると問題ありません。しかし、simpleHTTPはそうではありません。 simpleHTTPは、名前が示すように、むしろ単純です。クッキー、SSL、リダイレクトなどは処理しません。

代わりにNetwork.Browserモジュールを使用します。リクエストがどのように行われるかをより詳細に制御できます。特に、setAllowRedirects関数は自動的にリダイレクトに従います。直接PDFファイルをダウンロードしたいとHTTPを参照してください、それを行う方法を知らない人のために

import Network.Browser 

grabUrl :: String -> IO String 
grabUrl url = fmap (rspBody . snd) . browse $ do 
    -- Disable logging output 
    setErrHandler $ const (return()) 
    setOutHandler $ const (return()) 

    setAllowRedirects True 
    request $ getRequest url

出典

2011-09-10 01:41:29 hammar

wikipediaからpdfファイルをダウンロード

答えて

関連する問題