ラピッドマイナーがクロールのWeb結果を保存しない

IMDBのウェブサイトから特定のムービーレビューのレビューをクロールしようとしています。このため私は74ページあるのでループ内に埋め込んだクロールウェブを使用しています。ラピッドマイナーがクロールのWeb結果を保存しない

設定のイメージが添付されています。助けてください。これにひどく詰まっています。

クロールのWebのURLは次のとおりです。http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

出典

2016-04-18 Kartik Solanki

私はそれを試したとき、私は403 forbiddenエラーを得ましたIMDBサービスは私がロボットだと思うからです。 Loopをと使用すると、Loopオペレータは待機を実装しないため、悪い習慣です。

このプロセスは、演算子に減らすことができます。重要なパラメータは以下のとおりです。

URL - http://www.imdb.com/title/tt0454876
最大ページに設定する - 79またはものは何でも
最大ページサイズ必要数にこれを設定 - この設定を1000に
ルールクロール - セットをあなたは
出力ディレクトリを指定したものにこれら - クロールオペレータがめざしますので、これは動作します

で物事を格納するフォルダを選択しますルールに一致する可能性のあるすべてのURLを抽出し、一致するものを保存します。この訪問は、サーバでロボットの除外を引き起こさないように、1000ミリ秒（遅延パラメータ）だけ遅延します。

これはあなたが最初になることを望みます。

出典

2016-04-18 14:59:09 awchisholm

私は既にマクロを値0として初期化しており、レビューのためにウェブページを作成するたびに10を追加しています。http://www.imdb.com/title/tt0454876/reviews?start=0 http：// www。 imdb.com/title/tt0454876/reviews?start=10 http://www.imdb.com/title/tt0454876/reviews?start=20など。それで、なぜ私はすべてのレビューを取得するために各ループで10の増分を使用しています。私の執行命令をどうやって修正すればいいのですか？ –

また、私はコンテキストタブでマクロ名 'pagePos'と '0'として値を初期化しました。ループの中で何が実行命令であるべきか教えてくれますか？また、私はちょうどレビューをフェッチする必要があるようにクロールルールは何ですか？ Rapidminerの初心者なので、助けてください。 –

現在のプロセスでは403エラーが発生します。その理由は、直接URLにアクセスするタイトなループで、 'Crawl Web'を正しく使用しないことが原因です。プロセスを単純化すると、 'Loop'演算子をまったく使用しないようにすることができます。私は私の答えを更新しました。 – awchisholm

ラピッドマイナーがクロールのWeb結果を保存しない

答えて

関連する問題