未知のウェブページがあります。私は各ウェブサイトからウェブページの例を持っており、それぞれのウェブサイトに特徴的なテンプレートがあると仮定しています。 私は完全な確信を必要とせず、各Webページに一致するリソースを使いたくない。だから、ウェブページのために各ウェブサイトをクロールすることは問題になりません。ウェブページがウェブサイトから来ているかどうかを効率的に判断する方法
私は、各WebページのDOMのツリー構造を比較することをお勧めします。これを行うライブラリはありますか?
理想的には私はPythonベースのソリューションの後ですが、アルゴリズムがあれば私は理解して実装することができますが、私もそれに興味があります。
おかげ