2017-01-15 11 views
0

2つのコーパス(コーパス1 &コーパス2)があり、コーパス1の文書にコーパス2の剽窃文が含まれています。コーパス1の文書間の類似度をTf-次のようにコーパス2における用語の転置インデックスは、構築された 2つのコーパスのTf-Idf計算

コーパス2にドキュメントに対して: Corpus 2 Index

まもなく、それぞれ2つの文比較のために、私は2つのTf-IDFベクトルを構築していますし、私コサイン類似性を用いて類似性を測定する。

私の質問は、コーパス1の文章に関連するベクトルの構築過程で、私はコーパス2のインデックスを使ってIdfをX項に関連する文書を集計して得ました。コーパス1にある用語はコーパス2で利用できないため、Tf-idf関数はこれらの用語に対して0を返すためです。または私はコーパス1の別のインデックスを作成しなければなりません(これは私の意見ではTf-idfのパワーを排除します)。

答えて

0

私たちは仕事を達成するために必要なターゲットコーパスにインデックスを付けなければなりません。例:2つのコーパス、元の盗まれたコーパスがある場合。 検索する必要があるため、元のインデックスにインデックスを付ける必要があります。

関連する問題