この質問には簡単で具体的な回答はありませんが、私はあなたを始めます。
まず、ソートのクローラを構築する必要があります。通常は、これをマルチスレッド化してサーバー上のバックグラウンドで実行する必要があります。これはサーバー上でPHPプロセスをフォークするのと同じくらい単純かもしれませんが、トラフィックの量に応じてより効率的な方法が見つかるかもしれません。
おそらく、DOMを読み込むのが最善の方法です。 http://php.net/manual/en/class.domdocument.php見出しを探し、それらの下にある段落に関連付けることを試みます。おそらく、サイトの半分以下のサイト(おそらくフィードを持っていないサイトからはるかに少ないサイト)は、組織的な方法でサイトを構成しないことに注意してください。しかし、それは始める場所です。
altテキストのように、あまりにも多くの要素属性が使用できます。また、時間の経過とともに、特定のテンプレートを使用して多くのサイトを見つけることができます。このサイトでは、直接処理するコードを記述することができます。
また、既存のフィードを読む必要があります。サイトにフィードがある場合は、フィードを生成する意味がありません。 SimplePieを使って始めましょうが、好きではない選択肢があります。 http://simplepie.org/
ページを解析したら、データベースのバックエンドでそのページを追跡して変更することができます。
そこからフィードを生成する必要があります。これを行うための多くのOOPクラスがあります。しばしば、私は自分自身を書くだけですが、それはあなた次第です。
達成したいことの詳細を説明する必要があります。たとえば、Page2RSSは単にページ変更のフィードを作成しますが、Feed43はページのコンポーネントを分割してフィードコンテンツとして使用します。いずれにせよ、それは混乱です。ほぼすべてのサイトがRSSフィードを提供しています。おそらくフィードでうまくいくコンテンツを持っていないものはありません。あなたの意図や希望する結果についてもう少し私たちに伝えることができれば、おそらく良い答えを提供することができます。 – Brad
すぐに使用できるソリューションはありません。 1つは、これを達成するためのプログラミングのスキルを持っている必要があります。そして、いくらかの時間を費やしました。各サイトについては、私は意味します。 –
@ブラッド:まず最初にお返事いただきありがとうございます。ちょうど私はちょうどいくつかの見出しと、このウェブサイトのhttp://www.life123.com/のようなウェブサイトからその見出しについての小さな説明を選びたいと思います。とその説明、私はちょうどパーサーと私のPHPのスキルを使用する必要があると思う。 – Peeyush