2つのコーパスのTf-Idf計算

2つのコーパス（コーパス1 &コーパス2）があり、コーパス1の文書にコーパス2の剽窃文が含まれています。コーパス1の文書間の類似度をTf-次のようにコーパス2における用語の転置インデックスは、構築された 2つのコーパスのTf-Idf計算

コーパス2にドキュメントに対して：

まもなく、それぞれ2つの文比較のために、私は2つのTf-IDFベクトルを構築していますし、私コサイン類似性を用いて類似性を測定する。

私の質問は、コーパス1の文章に関連するベクトルの構築過程で、私はコーパス2のインデックスを使ってIdfをX項に関連する文書を集計して得ました。コーパス1にある用語はコーパス2で利用できないため、Tf-idf関数はこれらの用語に対して0を返すためです。または私はコーパス1の別のインデックスを作成しなければなりません（これは私の意見ではTf-idfのパワーを排除します）。

出典

2017-01-15 MIB Minion

私たちは仕事を達成するために必要なターゲットコーパスにインデックスを付けなければなりません。例：2つのコーパス、元の盗まれたコーパスがある場合。検索する必要があるため、元のインデックスにインデックスを付ける必要があります。

出典

2017-02-27 16:48:31

2つのコーパスのTf-Idf計算

答えて

関連する問題