2017-08-11 4 views
1

私は、GloveやGoogle Word2vecなどの公に利用可能な単語埋め込みを2つ持っています。 しかし、その語彙には、スペルミスやごみ語が多すぎます(例:## AA ##、adirtyなど)。このような言葉を避けるために、頻繁に使われる言葉が普通の形をしていると思うので、頻繁に言葉を抽出したい(たとえば上位50000語)。一般に公開されている単語の埋め込みから、より意味のある単語を抽出します。

私は、上記の2つの事前に組み入れられた単語埋め込みで単語頻度を見つける方法があるのだろうかと思います。もしそうでなければ、私はこの言葉を除外するための技術があるかどうかを知りたい。

答えて

1

GoogleNewsベクターセットには頻度情報は含まれていませんが、頻度が最も高いものから最低限のものに分類されているようです。したがって、最初のN単語だけを読み込むように読み込むコードを変更すると、N個の最も頻繁な単語を取得する必要があります。

(。Pythonのgensim訓練のためのライブラリまたは単語ベクトルでの作業がload_word2vec_format()機能にlimitオプションとしてこれを含みます)

手袋は、同じ規則に従うことができる - オーダー・オブ・言葉でオーバーを見てファイルは良いアイデアを与える必要があります。

関連する問題