私はspacyのトークンの類似性を計算しようとしています。私。単語トークンが互いにどれほど近いかを示します。私はspacyバージョン2.0.5を使用しています。ここに私の簡単な例があります。Spacyでトークンの類似性を見つけるにはどうすればいいですか?
import spacy
from spacy.lang.en import English
from spacy.tokenizer import Tokenizer
nlp = spacy.load('en')
x = nlp(u'apple')
y = nlp(u'apple')
x.similarity(y)
これは-81216639937292144.0を返しますが、1.0と予想していました。また
だけでなく、間違ったようだ
x = nlp(u'apple')
y = nlp(u'apples')
x.similarity(y)
戻り0.0038385278814858344。
このトークンの類似性を機能させるにはどうすればよいですか?私は本当にSpacy内で(別の文字列距離パッケージを使用するのではなく)滞在しようとしていますが、これがちょうどスペーシーで行えない場合には、提案を歓迎します。
ステムママ/リーマバージョンバージョンのトークンの類似性を確認してください。 – Tanu
@Tanu nlp = spacy.load( 'en')を使って試しました。 tokenizer =トークナイザ(nlp.vocab) x = tokenizer(u'apple ') y = tokenizer(u'apple') x。類似性(y)はまだ0の結果を得ました – clairekelley
あなたはspacyモジュールにどのバージョンを使用していますか?私は 'apple'をAppleの類似点にしようとしました。それは99%近くのどこかで返されました。 – Tanu