web-crawler

    0

    1答えて

    私は今、Webクローラーを作成していますが、私はimdbからユーザーレビューを取りたいと思っています。原点ページから10のレビューとレートを直接取得するのは簡単です。たとえば、http://www.imdb.com/title/tt1392170/reviews問題はすべてのレビューを取得することです、私はURLアドレスが変更されていない間に、より多くのレビューが表示されるように "より多くの負荷

    3

    2答えて

    私は、ウェブページから別のカテゴリー名を得るためにスクレーパーをPythonで書いていますが、そのページから何かを取り出すことはできません。私はどこが間違っているのか理解できないように真剣に混乱しています。どんな助けも大いに評価されるでしょう。ここで では、ウェブページへのリンクです: <div class="slide_container"> <a href="/offers/furn

    0

    1答えて

    この行にエラーが発生しました:tr_ tag = soup.table.tr エラーメッセージ:非タイプオブジェクトには 'tr'属性がありません。 私はimbdにWebクローラを書き、Python 2.7を使用してデータを取得しています。 修正してもらえますか? def get_movie_data(self, soup, min_rating): **tr_tag = soup.table.

    0

    1答えて

    MapReduceアーキテクチャを使用してHadoopフレームワークに基づくJavaクローラを実装し、HBaseにコンテンツを挿入したいと考えています。 私はこの2つのチュートリアルを結合しよう: Basic web crawler example MapReduce tutorial しかし、私は概念を理解することはできません。ページからリンクを抽出するロジックを置く場所はどこですか?マッパーの

    0

    1答えて

    私は同じ問題があります。 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10 crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds> 私は2.3.1バージョンのNutchと5.2.1バージョンのSolrを使用しています。問題は、このコマンドだ

    0

    1答えて

    私はNutch 1.13を自分のUbuntuにインストールしました。私はスタンドアロンモードでクロールを実行できます。それは正常に実行され、希望の結果を生成するが、私は今どのようにhadoopでそれを実行するか分からない?私はHadoopを擬似分散モードでインストールし、HadoopでNutchのクロールを行い、それを監視したいと考えています。どうしたらいいですか?スタンドアロンモードで実行するた

    1

    1答えて

    私はhttp://ruby.bastardsbook.com/chapters/web-crawling/でチュートリアルを進めていますが、作者が例として使用したDODウェブサイトが書面の時点から再作成されているため、Handling Redirectsの説明を少ししたいと思います現在のバージョンで動作するようにコードを調整している間に、予期せぬ結果に遭遇しました。 (コードを書き直す手助けは必要

    0

    1答えて

    URLを使用してウェブページのHTMLコードを取得しようとしています。私は次のコードを書いて、それは動作しますが、結果の文字列を比較すると、私はGoogle Chromeの検査を使用するときに表示されるコードと一致しません。私はHTMLグルーではありませんが、それは異なっているようです。 HttpWebRequest request = (HttpWebRequest)WebRequest.Cre

    1

    1答えて

    クローラページのコンテンツの長さをドキュメントにメタデータとして格納するとします。 http.store.headers = trueを設定することができますが、私はサーバーのhttpヘッダーを信頼しません。 は、だから我々は ProtocolResponse#のgetContent()。( "bytes_fetched" メトリックに加えて)メタデータへの値として、長さ を書くことFetched

    1

    1答えて

    私はチュートリアルのすべてのツアーをやろうとしていましたが、私はウェブクローラで立ち往生しています。私はそれを終了したと思ったが、出力が矛盾していて、理由を把握するのに十分な並行性の経験がない。ここで は私のコードです: package main import ( "fmt" "sync" ) type Fetcher interface { // Fetch