word2vec

    0

    1答えて

    私はGoogleの訓練されたベクトル 'GoogleNews-vectors-negative300.bin.gz' Google-word2vecをsparkに読み込もうとしています。 私はbinファイルをtxtに変換し、テストのために "vectors.txt"という小さなチャンクを作成しました。 vectors.txt」の後のメタデータ」を行ったところ、私はよく分からない Exception

    0

    1答えて

    Word2Vectorでは、単語の埋め込みは、共起を使用して学習され、お互いのコンテキストで発生する単語が互いに接近するように。 私の質問は以下のとおりです。 1)あなたはすでに埋め込みの事前訓練されたセットを持っている場合は、変更することなく、この埋め込み空間に10個の追加の単語を追加することができる、のは40kの言葉で100次元空間を言わせて既存の単語の埋め込み。したがって、既存の単語埋め込み

    2

    1答えて

    gensimのpkgとCythonを再インストールしますが、この警告が続行されます 誰でもこれについて知っていますか? 私はPython 3.6、PyCharm Linux Mintを使用しています。 UserWarning:Word2VecではC拡張が読み込まれていないため、トレーニングが遅くなります。 Cコンパイラをインストールし、gensimを再インストールして、迅速なトレーニングを行います

    2

    1答えて

    Word2Vecで 、私はCBOWの両方とスキップグラムは、ベクトル(cmiiw)を作成するために、ワンホットエンコーディング値を生成することを学んだ、私は計算したりへのワンホットエンコーディング値を表しする方法を疑問に思う実数値このことから :例えば、ベクター、(DistrictDataLab's Blog about Distributed Representationsソース): へ: 助け

    1

    1答えて

    私は2つの文の間の類似性を見つけるために単語埋め込みを使用しています。 word2vecを使って、ある文章が英語であり、もう1つがオランダ語であれば(類似していないにもかかわらず)同様の尺度が得られます。 2つの異なる言語(明示的な翻訳なし)で2つの文の間の類似性を計算できるかどうか、特に言語にいくつかの類似点(Englis/Dutch)がある場合、

    1

    1答えて

    私は、GloveやGoogle Word2vecなどの公に利用可能な単語埋め込みを2つ持っています。 しかし、その語彙には、スペルミスやごみ語が多すぎます(例:## AA ##、adirtyなど)。このような言葉を避けるために、頻繁に使われる言葉が普通の形をしていると思うので、頻繁に言葉を抽出したい(たとえば上位50000語)。 私は、上記の2つの事前に組み入れられた単語埋め込みで単語頻度を見つけ

    0

    2答えて

    初心者の質問ですが、私は少しこれに戸惑います。この質問への答えがNLPの他の初心者にとっても有益であることを願っています。 は、ここではいくつかの詳細は以下のとおりです。 私はあなたがword2vecによって生成された単語ベクトルから文ベクトルを計算することができることを知っています。しかし、これらの文章ベクトルを作るために必要な実際の手順は何ですか?誰もが直感的な例を提供し、このプロセスを説明す

    1

    1答えて

    ワード埋め込み用のコーパスが1つあります。このコーパスを使用して、単語の埋め込みを練習しました。しかし、単語の埋め込みを訓練するときは、結果は全く異なります(この結果は、K-Nearest Neighbor(KNN)に基づいています)。例えば、最初のトレーニングでは、「コンピュータ」最近傍の言葉は「ラップトップ」、「のコンピュータ」、「ハードウェア」です。しかし、2回目の練習では、この言葉は「ソフ

    0

    1答えて

    私はすべてのユーザーのためのword2vecモデルを持っているので、2つの単語が異なるモデルのように見えます。これより訓練されたモデルを比較する最適な方法はありますか? userAvec = Word2Vec.load(userAvec.w2v) userBvec = Word2Vec.load(userBvec.w2v) #for word in vocab, perform dot pr

    0

    1答えて

    次のように線でテキストファイルを考える:各テキスト行がspaceや他の特殊文字を含めることができますフレーズののタブ区切りのシーケンスは、ある Phrase foo\tPhrase bla\tPhrase blabla\t... Phrase bar\tPhrase blabla\tPhrase blablabla\t... 。フレーズレベルではなく単語レベルでの埋め込みに興味があります。