私は、GloveやGoogle Word2vecなどの公に利用可能な単語埋め込みを2つ持っています。 しかし、その語彙には、スペルミスやごみ語が多すぎます(例:## AA ##、adirtyなど)。このような言葉を避けるために、頻繁に使われる言葉が普通の形をしていると思うので、頻繁に言葉を抽出したい(たとえば上位50000語)。一般に公開されている単語の埋め込みから、より意味のある単語を抽出します。
私は、上記の2つの事前に組み入れられた単語埋め込みで単語頻度を見つける方法があるのだろうかと思います。もしそうでなければ、私はこの言葉を除外するための技術があるかどうかを知りたい。