私は、類似度を使って2つのテキストを単語の頻度と比較しようとしています。ベクトルを0で塗りつぶす
は、次の2つの文を想像:
テキスト1 =「ウィキペディアをインターネット百科事典は、サポートされている非営利のウィキメディア財団が主催している」.split()
テキスト2 =「ウィキペディアは無料です
:その後、私はベクトルとして任期の周波数を使用するのwikiソフトウェア」.split()
を使用して共同で構築された百科事典
ここでは、vec_xの "by"のカウントがvec_yの "by"のカウントと同じ位置で一致し、そのワードがいずれのフィールドにも表示されない場合ベクトルに0を加えると、同じ長さになります。したがって、たとえば:
#vectors obtained
#vec_x = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
#vec_y = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
#Output expected
#vec_x = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1]
#vec_y = [1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1]
ありがとうございます。どんな助けもありがとうございます。
編集:タイプミス
@Keozonは最後に 'split()'を見逃しました。 –