2016-04-18 6 views
0

IMDBのウェブサイトから特定のムービーレビューのレビューをクロールしようとしています。このため私は74ページあるのでループ内に埋め込んだクロールウェブを使用しています。ラピッドマイナーがクロールのWeb結果を保存しない

設定のイメージが添付されています。助けてください。これにひどく詰まっています。

クロールのWebのURLは次のとおりです。http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

enter image description here

答えて

0

私はそれを試したとき、私は403 forbiddenエラーを得ましたIMDBサービスは私がロボットだと思うからです。 Loopを​​と使用すると、Loopオペレータは待機を実装しないため、悪い習慣です。

このプロセスは、​​演算子に減らすことができます。重要なパラメータは以下のとおりです。

  • URL - http://www.imdb.com/title/tt0454876
  • 最大ページに設定する - 79またはものは何でも
  • 最大ページサイズ必要数にこれを設定 - この設定を1000に
  • ルールクロール - セットをあなたは
  • 出力ディレクトリを指定したものにこれら - クロールオペレータがめざしますので、これは動作します

で物事を格納するフォルダを選択しますルールに一致する可能性のあるすべてのURLを抽出し、一致するものを保存します。この訪問は、サーバでロボットの除外を引き起こさないように、1000ミリ秒(遅延パラメータ)だけ遅延します。

これはあなたが最初になることを望みます。

+0

私は既にマクロを値0として初期化しており、レビューのためにウェブページを作成するたびに10を追加しています。http://www.imdb.com/title/tt0454876/reviews?start=0 http:// www。 imdb.com/title/tt0454876/reviews?start=10 http://www.imdb.com/title/tt0454876/reviews?start=20など。それで、なぜ私はすべてのレビューを取得するために各ループで10の増分を使用しています。私の執行命令をどうやって修正すればい​​いのですか? –

+0

また、私はコンテキストタブでマクロ名 'pagePos'と '0'として値を初期化しました。ループの中で何が実行命令であるべきか教えてくれますか?また、私はちょうどレビューをフェッチする必要があるようにクロールルールは何ですか? Rapidminerの初心者なので、助けてください。 –

+0

現在のプロセスでは403エラーが発生します。その理由は、直接URLにアクセスするタイトなループで、 'Crawl Web'を正しく使用しないことが原因です。プロセスを単純化すると、 'Loop'演算子をまったく使用しないようにすることができます。私は私の答えを更新しました。 – awchisholm

関連する問題