2011-06-29 7 views
5

多量のテキストがあり、最も頻繁に発生するテンプレートを発見しようとしている場合、N-Gramアプローチを使用して解決することを考えていましたが、実際にはthisの解決策として提案されましたが、わずかに異なる。私はラインの万人に拡大することができますアプローチを探しています特定のテキストの「テンプレート」を発見していますか?

I wake up every day morning and ... and then go to work 
I am not sure that this is the ... but I will try 
I ... not feeling well ... but I will get the work done and ... tomorrow 

I wake up every day morning and read the newspaper and then go to work 
I wake up every day morning and eat my breakfast and then go to work 
I am not sure that this is the solution but I will try 
I am not sure that this is the answer but I will try 
I am not feeling well today but I will get the work done and deliver it tomorrow 
I was not feeling well yesterday but I will get the work done and let you know by tomorrow 

と、このような「テンプレート」を抽出しようとしています:だけ明確にするために、私はこのようないくつかのテキストを持っていますテキストのように、この問題を解決するために同じN-gramアプローチを適用できるのか、それとも何か別の選択肢があるのだろうかと思っていました。

答えて

5

テキストの行数百万は本当に大きな数ではありません:)あなたが探しているもの

は、コロケーション発見に少なくとも類似しています。あなたは、nグラムに関する点ごとの相互情報を計算しようとすることができます。この問題やその他の方法については、Manning & Schütze (1999)を参照してください。

+0

ありがとうございます。私はついに今日本を手に入れました:) – Legend

関連する問題