2017-12-28 16 views
1

クローラページのコンテンツの長さをドキュメントにメタデータとして格納するとします。 http.store.headers = trueを設定することができますが、私はサーバーのhttpヘッダーを信頼しません。 コンテンツの長さをフィールド値として格納する(インデックス付きドキュメントのメタデータとも呼ばれる)

は、だから我々は

ProtocolResponse#のgetContent()。( "bytes_fetched" メトリックに加えて)メタデータへの値として、長さ

を書くことFetchedBoltを変更しました。

コードを変更せずにこの値を取得する方法はありますか? (fetchとparseの間に余分なボルトを追加することもできます。もっと簡単な解決法がありますようお願いします)

答えて

1

これはプロトコルレベルで実行できますが、FetcherBoltで行う方が簡単でしょう。あなたのコードを寄稿してPRを開くことはできますか?ありがとう

+1

細かい:-) https://github.com/DigitalPebble/storm-crawler/pull/524 –

関連する問題