特定のフィールドのすべてのブログサイトをクロールしたい。たとえば。タイトル、説明、タグ、日付、著者など。私はscrapyライブラリをPythonでビルドしています。ブログサイトをスクラップするためのさまざまな方法/デザイン
各サイトで、htmlは異なるようになります。私は常にh1タグでタイトルを取得するわけではありません。すべてのブログサイトには異なる形式があります。私にはクロールしたいサイトが固定されていません。また、私は新しいサイトを掻きたいときに毎回コードを変更したくありません。
問題や挑戦が少なくて済むようにするためのベストプラクティス/デザインパターンを教えてください。私は各サイトの別のクラスで終わるファクトリパターンを使用することができます。私はそれが再び開発者の関与を必要とするので、それをしたくありません。
私は人間の関与を減らすことができる解決策を探しています。点では、ホストで実行し、管理する場所として
あなたの質問は少し広すぎます。ヘッダー、記事本文、日付などのHTMLから特定の属性を見つけて抽出するには、さまざまな方法があります。それらのすべてを個々に調べたり開いたりする必要があります。 – Granitosaurus
私はここだけで体について話しています。私はHTML本体に興味があります。 HTML本体の中には、それぞれのウェブサイトが異なるHTML構造を持っています。その共通パターンを定義するのは非常に難しいですが、ベストプラクティスを探していますので、スケーラビリティとメンテナンス可能なアプローチに終わることができます。 – SangamAngre
このようなコンテンツを抽出するための正確なベストプラクティスは実際のサイトに依存する可能性が高いため、この質問はまだまだ広すぎます。 –