2017-11-24 3 views
0

私はリスティングページを解析し、JSON出力を生成しています。最終的にすべてのものが解析されると、最終的なスクラップ結果に対していくつかの操作を実行したいと思います。私はどのようにそれをScrapyで行うことができますか?私はprocess_itemについて知っていますが、反復の各項目に対して機能します。私が見つけた閉じたものはclose_spiderでしたが、私が実行するとわからないのです私はJSONを私に与えますか?closed_spider?はいの場合はどうですか?最終的なスクレーパーをどのように処理するとスクレイピーになりますか?

答えて

0

は、あなたがさらにあなたの答えを詳しく説明することができ、最終的なJSONファイル

+0

を処理するfinish_exportingメソッドを上書きJsonItemExporterサブクラス化できます。このメソッドですべてのレコードの完全な解析済みデータを取得できますか? – Volatil3

+0

こんにちは@ Volatil3はい、基本的にアイテムの輸出者はファイルにシリアライズされたアイテムを追加し、出力ファイルにアクセスできるので、すべてのアイテムにアクセスできます(https://github.com/scrapy/scrapy/を確認してください)。 blob/master/scrapy/exporters.py#L101) 'file'変数はすべてのシリアライズされた項目を含むファイルです。あるいは、カスタムのメモリ内フィード記憶域(アイテムの輸出者が使用するファイルをs3、ftpなどの最終的な宛先に格納するオブジェクト)を作成し、メソッド 'store'が呼び出されたときにすべてのアイテムを処理することもできます – Wilfredo

関連する問題