gensim

    0

    1答えて

    私はgensimでwordとdocベクトルの学習中にlog-probabilityを出力したかったのです。私は "slow plain numpy"バージョンでスコア関数の実装を見てきました。 def score_cbow_pair(model, word, word2_indices, l1): l2a = model.syn1[word.point] # 2d matrix, cod

    0

    1答えて

    を使用してモデルをdoc2vec再教育するためにどのように、私は、モデルを訓練し、以下のファイルが保存されている: 1. model 2. model.docvecs.doctag_syn0.npy 3. model.syn0.npy 4. model.syn1.npy 5. model.syn1neg.npy しかし、私は文書をラベル付けするための新しい方法を持っているし、訓練したい

    0

    1答えて

    gensimで平均化したPV-DMの実装を理解しようとしています。 train_document_dmがdoc2vec.pyの場合、train_cbow_pairの戻り値( "errors")は、平均化の場合(cbow_mean=1)は入力ベクトルの数(count)で除算されません。 この説明によれば、入力ベクトルを平均化する場合の文書数で除算する必要があります:word2vec Paramete

    0

    1答えて

    私はgensimのLdaModelを使用しています。documentationによれば、パラメータはrandom_stateです。しかし、私が言うエラー取得しています: TypeError: __init__() got an unexpected keyword argument 'random_state' をrandom_stateパラメータを指定しないと予想されるように、機能が動作しま

    1

    1答えて

    異なる単語間の類似性を単純なベクトル空間グラフにプロットしたいと思います。 gensimで与えられたモデルword2vecを使って計算しましたが、文献ではグラフィカルな例は見つかりません。次のように私のコードです:銀行、金融、市場、不動産、石油、エネルギー、ビジネスと経済: ## Libraries to download from nltk.tokenize import RegexpToke

    1

    1答えて

    私は事前にトレーニングされたword2vecモデルを使用したいと思いますが、Pythonでロードする方法はわかりません。 このファイルはMODELファイル(703 MB)です。 それはここからダウンロードすることができます: http://devmount.github.io/GermanWordEmbeddings/

    3

    1答えて

    Gensimが提供するWord2vecおよびDoc2vecメソッドを使用すると、高速化のためにBLAS、ATLASなどを使用する分散バージョンがあります(詳細はhere)。しかし、それはGPUモードをサポートしていますか? Gensimを使用している場合、GPUを動作させることは可能ですか?

    1

    1答えて

    私は無関係のTwitterユーザーのプロファイルを定義するためにTwitterのトピックモデリングを扱っています。私はGensimモジュールを使ってLDAモデルを生成しています。私の質問は、良い入力データを選ぶことです。私は特定のユーザーに割り当てるトピックを生成したいと思います。質問は入力データに関するものです。今では、私自身(スポーツ、IT、政治など)別のカテゴリのユーザーを選んで、そのツイー

    3

    1答えて

    私は約2300の段落(それぞれ2000-12000語の間)のベクトルサイズを300に訓練しました。今、私は段落とみなした約10万センチの段落ベクトルを推論する必要があります(各センテンスは約10ですすでに訓練された2300の段落に対応する-30語)。 ので、 model.infer_vector(sentence) を使用しています。しかし、問題は、それは時間がかかりすぎるし、これは、そのような「

    4

    1答えて

    でgensimで、私はトレーニングdoc2vecモデルのための入力として文字列を与えるとき、私はこのエラーを取得: はTypeError(「ドン\」トンノウハウURI%s'は%のrepr(URI)をどのように扱うか) 私はこの質問Doc2vec : TaggedLineDocument() 呼ばそれでも入力フォーマットについて疑問を持っています。 documents = TaggedLineDoc