gensim

    0

    1答えて

    こんにちは私はBBCのフォルダ内の各サブフォルダが含まれている。この のようなBBCのフォルダに存在するファイルのテキストファイル このコードは、フォルダ内のファイルにアクセスすることができますがあり class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__

    2

    1答えて

    私はsizeがベクトルの次元である、Gensimのドキュメントからgensim.models.Word2Vec にsizeパラメータの使用を理解するために苦労してきました。さて、私の知る限り、word2vecは、各単語の文中の他の単語との近さの確率のベクトルを作成します。だから私のvocabのサイズが30の場合、30より大きい次元のベクトルをどのように作成するのでしょうか?誰もがWord2Vecサ

    1

    1答えて

    私はdoc2vecを初めて使いました。 私はこの問題について多くの人に尋ねましたが、その解決策は誰にも分かりません。 私がやりたいことは、Doc2vecの結果をk-meansに集約することです。コードの下をご覧ください。 mbk = MiniBatchKMeans(n_clusters=3, init_size=400, batch_size=300, verbose=1).fit(model_d

    0

    1答えて

    この記事の内容:http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/私は、テキスト分類タスクでGloVeの事前に訓練されたベクトルでgensim word2vecモデルを実装しようとしています。しかし、私はテキストデータでもFeatureSelectionをやりたいと思います。私はパイプライン

    0

    1答えて

    の限られた数を生成します。ここで私が使用していたコードは(私は私の問題は、コードにあるものを説明している)されています。私はミスをやっている場合、私はちょうど疑問に思ってか、他のパラメータがある場合、私は設定しなければならないこと cores = multiprocessing.cpu_count() # creating a list of tagged documents trainin

    0

    1答えて

    Gensimの実装したWord2Vecを文章の代わりに入力としてコンテキスト・ワード・ペアのリストとともに使用したいと考えています。私はもともと、手作業で作成された文脈語の対を文章として入力することは、生の文章を入力してwindowパラメータを1に設定することと同じであると考えましたが、2つのアプローチは異なる結果をもたらします。 GensimのWord2Vecはどのようにして文の単語と単語のペア

    2

    1答えて

    gensimのpkgとCythonを再インストールしますが、この警告が続行されます 誰でもこれについて知っていますか? 私はPython 3.6、PyCharm Linux Mintを使用しています。 UserWarning:Word2VecではC拡張が読み込まれていないため、トレーニングが遅くなります。 Cコンパイラをインストールし、gensimを再インストールして、迅速なトレーニングを行います

    1

    1答えて

    私は2つの文の間の類似性を見つけるために単語埋め込みを使用しています。 word2vecを使って、ある文章が英語であり、もう1つがオランダ語であれば(類似していないにもかかわらず)同様の尺度が得られます。 2つの異なる言語(明示的な翻訳なし)で2つの文の間の類似性を計算できるかどうか、特に言語にいくつかの類似点(Englis/Dutch)がある場合、

    1

    1答えて

    現在、私はLDAの対数をPythonで処理しています。話題を各トピックの上位20語のリストに変換したい私はコードの下で試したが、別の出力を得た。 私の出力は、次の形式で入力してください:topic=2,words=20 ["(u'ngma', 0.034841332255132154)", "(u'video', 0.0073756817356584745)", "(u'youtube', 0.0

    0

    1答えて

    私は言語学論文のトピックモデリングを行っています。私はGensimフレーズを使用して頻繁にコロケーションを識別しています。私は用語を特定の言語用語であるため、用語を「支援」と「それ」を1つの単語としてマークしたいと考えています。しかし、ストップワードを取り出した後にGensimモデルを作成すると、ストップワードを含んでいるためこれらのコロケーションは見つからず、ストップワード(または「それ」や「d