2009-03-02 10 views
2

トピックに関するいくつかのサイトのすべてのニュースを収集するrss-newsフェッチサーバーを構築しようとしています。多くの場合、これらのサイトにはほぼ同じ情報を持つ似たようなニュースがあります。そのようなニュースをどのようにグループ化することが可能でしょうか。たとえば、最初のリンクを表示し、次に他のリンクの概要を表示しますか?類似のニュースをグループ化するには

誰もこのことを経験していませんか?

答えて

3

キーワードを検索します(例:説明を単語に分割し、最も一般的な100語の単語を削除します)。その後、これらを共起させてまとまります。最も長い言葉を見てみると、すぐに良い近似が得られます。

つまり、「トピックグループ」の表がある場合は、新しいトピックグループまたは既存のトピックグループにそれぞれのアイテムを割り当てることができます。まず、既存のトピックグループのいずれかが、新商品;もしそうなら、それをそこに置く。存在しない場合は、キーワードで新しいトピックグループを作成し、そのトピックグループの最初のメンバーとして追加します。

- MarkusQ

0

記事の「セマンティックシグネチャまたはセマンティックDNA」を比較するときに最も効果的です。 これは、まず自然言語処理を行う必要があることを意味します。

関連する問題