2009-04-13 15 views
4

ドイツのウェブサイトnandoo.netはニュース記事を短縮する可能性があります。スライダを使用してパーセント値を変更すると、テキストが変更され、いくつかの文章が残されます。テキストを短くして重要な文章だけを残す

現在のアクションでそれを見ることができます:

http://www.nandoo.net/read/article/299925/

ニュース記事は左側にあり、タグがマークされています。スライダーは2番目の列の上にあります。スライダを左に動かすほどテキストが短くなります。

どのようにそのようなものを提供できますか?それを達成するために使用できるアルゴリズムはありますか?

私の考えは、彼らのアルゴリズムが文中のタグと名詞の数を数えるということでした。次に、タグ/名詞の数が最も少ない文が除外されます。

それは本当ですか?それとも別のアイデアがありますか?

私があなたを助けてくれることを願っています。前もって感謝します!

答えて

2

通常、その記事に固有の単語を持つ文章を保持したいとします。

つまり、文章が「一般的」であればあるほど、この特定の記事は少なくなります。

これを行う通常の方法は、スパムフィルタとよく似たベイジアン解析です。まず、記事全体のどの単語が予想よりも頻繁に出現するかを判断し、その単語を特徴とする文章を見つけます。

+0

ありがとうございました!次に、データベース内のすべての単語の出現回数を格納するだけです。それは問題ありません。しかし、なぜベイジアン解析が必要ですか?あなたは、テキストを通過し、単語の頻度を選択し、すべての文に対してそれらを数えることができます。右? – caw

+1

純粋なカウントを使用しないでください。なぜなら、自然に豊富な単語は高い数を持つと予想されますが、カウントが高い*相対*の単語を探しているからです。ベイジアン分析はまさにそのことです。 –

+0

Thx!だから私はデータベースから単語の出現の平均数を選択します。次に、この文章でどの単語が平均よりも頻繁に出現するかを判断します。少なくとも、これらの予想外の頻繁な単語を含む文章を選択します。右? – caw

3

これはComputational Linguisticsの熱心な研究課題です。 Bayesian Filteringを使用した浅いアプローチは、完璧な結果をもたらす可能性は低いですが、とにかく完璧な結果は必要ないでしょう。

CLでは、80-20ルールはすぐに95-5ルールになります。したがって、あなたが浅い方法で達成できるものに満足すれば、この回答はスキップしてください。

結果を改善できるかどうかを確認するには、より良いリソースを見つけようとするとよいでしょう。あなたが言及している課題は、研究コミュニティでは「テキスト要約」と呼ばれていますが、それ自体がweb pageですが、これは時代遅れです。 Mani and Maybury (1999)はおそらく良い概観(私はそれを自分で読んでいない)ですが、かなり古いです。最近の話題はMartin Hassels dissertationであり、言語に依存しない(読んだ:統計的、すなわち浅い)方法も含まれている。

いつものように、Googleもあなたを助けることができます。 text summarizationを検索してください。

+0

Bayesian Filteringが不十分な結果を出す場合、どうすればよいか分かります。 – caw

関連する問題