latent-semantic-indexing

    1

    1答えて

    私は、定義された概念空間(ここではlearning as it relates to work)に関連して、800k +学術論文を関連性(1)または無関係性(0)として分類する最も効果的かつ簡単な方法を模索します。 データである:タイトル&アブストラクト及び/又は封入のためのいくつかのしきい値を生じさせる機能を確立することによって、教師付き機械学習を含む、任意の手法を用い、あるいは組み合わせてもよ

    3

    2答えて

    私がネットから見つけた文書から、用語頻度と逆文書を決定するために使用された表現を計算しました tf-idf(wt)= tf * log( | N |/d); 私はgensimで述べたtf-idfの実装を行っていました。 ドキュメントに与えられた例は明らかにTF-IDFの標準実装に従っていません >>> doc_bow = [(0, 1), (1, 1)] >>> print tfidf[doc_

    1

    2答えて

    質問:各トピックの単語の頻度をどのように計算してコード化できますか? 私の目標は、各トピックから「Word Cloud」を作成することです。 P.S.>私はワードクラウドに問題はありません。コードから 、 burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,

    2

    1答えて

    私はsklearn(Python)にさまざまな確率モデル(latent Dirichlet Allocation、Non-negative Matrix Factorizationなど)を適合させる最良の方法を見つけようとしています。 sklearnのドキュメントの例を見ると、なぜLDAモデルがTFアレイに適合しているのか、NMFモデルはTF-IDFアレイに適合しているのだろうと思っていました。こ

    6

    1答えて

    私は最近、潜在意味解析に取り組んでいます。私はJamaパッケージを利用してjavaで実装しました。ここで はコードです: Matrix vtranspose ; a = new Matrix(termdoc); termdoc = a.getArray(); a = a.transpose() ; SingularValueDecomposition sv

    2

    1答えて

    私は特異値分解を学んでいるところですが、私はこの概念を使うことができ、私が読んでいる本ではSVDが潜在セマンティックインデックスに使われていると述べています。私はLSIに関する記事をほとんど読んでいないので、主に検索エンジンや類似のアプリケーションでLSIが使用されているようです。私は、私が取り組んでいる小規模のデータ分析プロジェクトにLSIを使用したいと思っていました。ここで私が働いているものが

    0

    1答えて

    私は朝からかなりのチュートリアルを読んでいます。私の問題は、2つのドキュメント間の類似性を見出すことです。私はこの目的のためにjavaでLSAを使用することを楽しみにしています。 用語文書行列の作成を理解してから、SVD(Dimensionality reduced)が適用されました。 3行列が結果として得られます。これは馬鹿に聞こえるかもしれませんが、私はかなり長い間このことに固執しています。今

    0

    1答えて

    Rのテキストデータを使用してロジスティック回帰を実行しようとしています。用語文書行列とそれに対応する潜在的意味空間を構築しました。私の理解では、LSAは次元削減に役立つ「用語」から「概念」を導出する際に使用されます。ここに私のコードがあります: tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighti

    0

    1答えて

    tfとidfを計算する方法はさまざまです。 LSAモデルでgensimがどの式を使用しているかを知りたい。私はそのソースコードlsimodel.pyを調べていますが、おそらくメモリ最適化のためにドキュメント用語行列が作成されている場所はわかりません。 one LSA paperで 、Iドキュメントタームマトリックスの各セルは、その単語のエントロピーで除算し、その文書におけるその単語の対数周波数であ

    3

    3答えて

    サポートベクターマシン(SVM)を使用してドキュメント分類を実行しようとしています。私が持っているドキュメントは、電子メールのコレクションです。私はSVM分類器を訓練するために約3000の文書を持っており、私は分類が必要な約700の試験文書セットを持っています。 私は、バイナリDocumentTermMatrixを最初にSVMトレーニングの入力として使用しました。私は、テストデータでの分類について