tf-idf

    3

    1答えて

    私は数千のテキスト行のデータセットを持っています。私の目標はtfidfスコアを計算し、文書間の類似性をコサインすることです。これはgensimチュートリアルに続くPythonで: dictionary = corpora.Dictionary(dat) corpus = [dictionary.doc2bow(text) for text in dat] tfidf = models.Tfi

    3

    1答えて

    私はelasticsearchに次のIDを持つ文書を持っています:AVosj8FEIaetdb3CXpP-私はそれをtf-idfのフィールドのすべての単語にアクセスしようとしています:私が持っている GET /cnn/cnn_article/AVosj8FEIaetdb3CXpP-/_termvectors { "fields" : ["author_wording"], "

    0

    1答えて

    Solr 6.3.0でsolrクエリのすべてのドキュメントをJAVA API SolrJを使用して取得できました。 solr(tf、idf、field normを使用して)ドキュメントをランク付けします。すべてのドキュメントに対してスコアフィールドを1.0にしています。正しい「スコア」フィールドを得ることができますか? 以下は私のコードスニペットと出力です。 String urlString =

    0

    1答えて

    2つのコーパス(コーパス1 &コーパス2)があり、コーパス1の文書にコーパス2の剽窃文が含まれています。コーパス1の文書間の類似度をTf-次のようにコーパス2における用語の転置インデックスは、構築された コーパス2にドキュメントに対して: まもなく、それぞれ2つの文比較のために、私は2つのTf-IDFベクトルを構築していますし、私コサイン類似性を用いて類似性を測定する。 私の質問は、コーパス1の文

    0

    2答えて

    私はいくつかの言語で書かれた膨大な数の文書を扱っています。私はtf-idfのスコアから文書間のコサイン距離を計算したいと思う。これまでのところ私が持っている: from sklearn.feature_extraction.text import TfidfVectorizer # The documents are located in the same folder as the scri

    2

    2答えて

    私はWikiでtf–idfを読んでいたので、 "ドキュメント"という言葉が意味するところでは混乱しました。段落を意味するのでしょうか? "逆文書頻度は、単語がどれくらいの情報を提供するか、つまり、その用語がすべての文書にわたって共通であるかまれであるかの尺度であり、取得された単語を含む文書の対数スケールの逆数です文書の総数をその用語を含む文書の数で割った上で、その商の対数をとることによって計算され

    1

    1答えて

    、 public class TfIdfExample { public static void main(String[] args){ JavaSparkContext sc = SparkSingleton.getContext(); SparkSession spark = SparkSession.builder() .confi

    1

    1答えて

    私は100のドキュメントを持っています(各ドキュメントはそのドキュメントの単純なリストです)。 TF-IDF行列を作成して、ランクごとに小さな単語検索を作成したいと考えています。私はtfidfVectorizerを使って試しましたが、構文が失われました。どんな助けでも大歓迎です。よろしく。 編集:私は文字列にリストを変換し、親リストにそれらを追加しました: vectorizer = TfidfVe

    0

    1答えて

    TF-IDFベクタライザを作成するためにいくつかのドキュメントを変換しました。今私は検索クエリを処理し、TF-IDF値の降順でページのリストを返したいと思います。私は「語彙」の中で質問語の位置を得ることができます。しかし、それは疎な行列なので、私はそのインデックスでtf-idfの値を読み取ることができません。どんな助けでも大歓迎です。 よろしくお願いします。

    1

    1答えて

    私は〜100kの研究論文のコーパスに取り組んでいます。私は三つのフィールド検討している:私はプレーンテキストフィールドのTFIDF表現を取得し、それによってを養うためにTfIdfVectorizerを使用する抽象 タイトル 平文 をバックに単語を発しました3つの表現がすべて同じボキャブで作業されていることを保証するタイトルと抽象のベクトル化ツール。私の考えは、平文のフィールドが他のフィールドよりも