gensim

0熱

1答えて

こんにちは私はBBCのフォルダ内の各サブフォルダが含まれている。こののようなBBCのフォルダに存在するファイルのテキストファイルこのコードは、フォルダ内のファイルにアクセスすることができますがあり class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__

2熱

1答えて

Pythonの：Gensim Word2vecモデルクラスで「サイズ」パラメータは何ですか

私はsizeがベクトルの次元である、Gensimのドキュメントからgensim.models.Word2Vec にsizeパラメータの使用を理解するために苦労してきました。さて、私の知る限り、word2vecは、各単語の文中の他の単語との近さの確率のベクトルを作成します。だから私のvocabのサイズが30の場合、30より大きい次元のベクトルをどのように作成するのでしょうか？誰もがWord2Vecサ

1熱

1答えて

Gensim Doc2vecモデルがK平均にクラスタリングする

私はdoc2vecを初めて使いました。私はこの問題について多くの人に尋ねましたが、その解決策は誰にも分かりません。私がやりたいことは、Doc2vecの結果をk-meansに集約することです。コードの下をご覧ください。 mbk = MiniBatchKMeans(n_clusters=3, init_size=400, batch_size=300, verbose=1).fit(model_d

0熱

1答えて

パイプラインでのw2vecと機能の選択の組み合わせ

この記事の内容：http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/私は、テキスト分類タスクでGloVeの事前に訓練されたベクトルでgensim word2vecモデルを実装しようとしています。しかし、私はテキストデータでもFeatureSelectionをやりたいと思います。私はパイプライン

0熱

1答えて

Gensim Doc2Vecモデルは、私だけが私の特徴ベクトルを生成するgensim <strong>Doc2Vec</strong>モデルを使用していますベクトル

の限られた数を生成します。ここで私が使用していたコードは（私は私の問題は、コードにあるものを説明している）されています。私はミスをやっている場合、私はちょうど疑問に思ってか、他のパラメータがある場合、私は設定しなければならないこと cores = multiprocessing.cpu_count() # creating a list of tagged documents trainin

0熱

1答えて

gensimのWord2Vecとカスタム・ワード・コンテキスト・ペアの使用

Gensimの実装したWord2Vecを文章の代わりに入力としてコンテキスト・ワード・ペアのリストとともに使用したいと考えています。私はもともと、手作業で作成された文脈語の対を文章として入力することは、生の文章を入力してwindowパラメータを1に設定することと同じであると考えましたが、2つのアプローチは異なる結果をもたらします。 GensimのWord2Vecはどのようにして文の単語と単語のペア

2熱

1答えて

Word2VecのC拡張がロードされていません

gensimのpkgとCythonを再インストールしますが、この警告が続行されます誰でもこれについて知っていますか？私はPython 3.6、PyCharm Linux Mintを使用しています。 UserWarning：Word2VecではC拡張が読み込まれていないため、トレーニングが遅くなります。 Cコンパイラをインストールし、gensimを再インストールして、迅速なトレーニングを行います

1熱

1答えて

複数の言語にわたる意味類似度

私は2つの文の間の類似性を見つけるために単語埋め込みを使用しています。 word2vecを使って、ある文章が英語であり、もう1つがオランダ語であれば（類似していないにもかかわらず）同様の尺度が得られます。 2つの異なる言語（明示的な翻訳なし）で2つの文の間の類似性を計算できるかどうか、特に言語にいくつかの類似点（Englis/Dutch）がある場合、

1熱

1答えて

トピックをPythonのLDAの各トピックの上位20語のリストに変換する方法

現在、私はLDAの対数をPythonで処理しています。話題を各トピックの上位20語のリストに変換したい私はコードの下で試したが、別の出力を得た。私の出力は、次の形式で入力してください：topic=2,words=20 ["(u'ngma', 0.034841332255132154)", "(u'video', 0.0073756817356584745)", "(u'youtube', 0.0

0熱

1答えて

手動でgensimフレーズにコロケーションを追加

私は言語学論文のトピックモデリングを行っています。私はGensimフレーズを使用して頻繁にコロケーションを識別しています。私は用語を特定の言語用語であるため、用語を「支援」と「それ」を1つの単語としてマークしたいと考えています。しかし、ストップワードを取り出した後にGensimモデルを作成すると、ストップワードを含んでいるためこれらのコロケーションは見つからず、ストップワード（または「それ」や「d