word2vec

0熱

1答えて

私はStanford NERを見ていて、単語の表現方法を知りたいと思っています。彼らは、線形CRFを使用してモデルを訓練するときに、Word2VecまたはGloveを使用してベクトルに変換されますか？さらに詳しい研究では、データがCRFDatum構造に格納されていることがわかります。誰もこれを詳しく教えてもらえますか？

0熱

1答えて

名前間の類似度測定？

私は私と私の名前のリストを持っていて、どのような名前のリストからも最も類似した5つの名前を検索しようとしています。 word2vecを適用したり、nltkのText.similar（）を使用すると考えました。でも、これらの名前が正しく機能するかどうかはわかりません。どのような類似性の尺度が私のために働くだろう。提案がありますか？これはどんなプロジェクトでもなく、私は新しいものを学びたいと思

0熱

1答えて

pyspark word2vecモデルから単語リストを取得する方法は？

私はPySparkを使って単語ベクトルを生成しようとしています。 PySpark私がモデルにベクトル空間から単語を生成することができますどのように inp = sc.textFile("tweet.txt").map(lambda row: row.split(" ")) word2vec = Word2Vec() model = word2vec.fit(inp) を使用して sente

0熱

1答えて

Tensorflow：再トレーニング中に事前にトレーニングされた埋め込みの初期化の問題

私の目標は、（1）初期値としてファイルから事前にトレーニングされた単語の埋め込み行列を読み込みます。（2）単語の埋め込みを固定しないで微調整する。（3）モデルを復元するたびに、事前に訓練されたものの代わりに微調整された単語の埋め込みをロードします。私は好きSTH試してみました： class model(): def __init__(self): # ... d

1熱

1答えて

Gensim：KeyError： "単語が語彙でない"

私はPythonのGensimライブラリを使って訓練されたWord2vecモデルを持っています。私は以下のようにトークン化されたリストを持っています。単語のサイズは34ですが、私はちょうど34のうちのいくつか与えている： b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', 'affil

0熱

1答えて

Python：word2vecに基づいて同様の単語をクラスタリングする

これは私が聞いている素朴な質問かもしれません。私はGensimのWord2vecモデルを訓練したトークン化コーパスを持っています。コードは次のとおりです site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") site.download(

0熱

1答えて

読むファイルが

こんにちは私はBBCのフォルダ内の各サブフォルダが含まれている。こののようなBBCのフォルダに存在するファイルのテキストファイルこのコードは、フォルダ内のファイルにアクセスすることができますがあり class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__

0熱

2答えて

skip-gramの複数出力はどういう意味ですか？

私はスキップグラム学習アルゴリズムのプロセスを理解しようとしてきました。私に混乱を招くこの小さな詳細があります。次のグラフ（スキップグラムを説明する多くの記事やブログで使用されています）では、複数の出力は何を意味していますか？つまり、入力語は同じで、出力行列は同じです。次に、入力単語の近くに出現するすべての単語の確率集合である出力ベクトルを計算すると、それは常に同じでなければなりません。 ski

0熱

1答えて

ワード埋め込み関係

単語埋め込みベクトルに対して実行できる代数関数の詳細を知りたい。コサインの類似性によって私は最もよく似た言葉を得ることができます。しかし、私は推論のもう一つのレベルを行い、以下の関係を得る必要があります： X1とX2の関係は、X3とX4の関係に似ています。たとえば、王子と王子の関係は、女性と男性の関係にあると言えます。私はX1からX3を持っています、そして、私の問題は、どのように効率的に私はX4

2熱

1答えて

Pythonの：Gensim Word2vecモデルクラスで「サイズ」パラメータは何ですか

私はsizeがベクトルの次元である、Gensimのドキュメントからgensim.models.Word2Vec にsizeパラメータの使用を理解するために苦労してきました。さて、私の知る限り、word2vecは、各単語の文中の他の単語との近さの確率のベクトルを作成します。だから私のvocabのサイズが30の場合、30より大きい次元のベクトルをどのように作成するのでしょうか？誰もがWord2Vecサ