tf-idf

3熱

1答えて

私は数千のテキスト行のデータセットを持っています。私の目標はtfidfスコアを計算し、文書間の類似性をコサインすることです。これはgensimチュートリアルに続くPythonで： dictionary = corpora.Dictionary(dat) corpus = [dictionary.doc2bow(text) for text in dat] tfidf = models.Tfi

3熱

1答えて

Elasticsearch：指定された文書のすべての用語のtf-idfを取得する

私はelasticsearchに次のIDを持つ文書を持っています：AVosj8FEIaetdb3CXpP-私はそれをtf-idfのフィールドのすべての単語にアクセスしようとしています：私が持っている GET /cnn/cnn_article/AVosj8FEIaetdb3CXpP-/_termvectors { "fields" : ["author_wording"], "

0熱

1答えて

SolrJ solrクエリから得られたすべてのドキュメントのドキュメントスコアを取得する

Solr 6.3.0でsolrクエリのすべてのドキュメントをJAVA API SolrJを使用して取得できました。 solr（tf、idf、field normを使用して）ドキュメントをランク付けします。すべてのドキュメントに対してスコアフィールドを1.0にしています。正しい「スコア」フィールドを得ることができますか？以下は私のコードスニペットと出力です。 String urlString =

0熱

1答えて

2つのコーパスのTf-Idf計算

2つのコーパス（コーパス1 &コーパス2）があり、コーパス1の文書にコーパス2の剽窃文が含まれています。コーパス1の文書間の類似度をTf-次のようにコーパス2における用語の転置インデックスは、構築されたコーパス2にドキュメントに対して：まもなく、それぞれ2つの文比較のために、私は2つのTf-IDFベクトルを構築していますし、私コサイン類似性を用いて類似性を測定する。私の質問は、コーパス1の文

0熱

2答えて

日本語のテキストにTfidfVectorizerを付けたit-idf

私はいくつかの言語で書かれた膨大な数の文書を扱っています。私はtf-idfのスコアから文書間のコサイン距離を計算したいと思う。これまでのところ私が持っている： from sklearn.feature_extraction.text import TfidfVectorizer # The documents are located in the same folder as the scri

2熱

2答えて

NLPコンテキストで「ドキュメント」とは何を意味しますか？

私はWikiでtf–idfを読んでいたので、 "ドキュメント"という言葉が意味するところでは混乱しました。段落を意味するのでしょうか？ "逆文書頻度は、単語がどれくらいの情報を提供するか、つまり、その用語がすべての文書にわたって共通であるかまれであるかの尺度であり、取得された単語を含む文書の対数スケールの逆数です文書の総数をその用語を含む文書の数で割った上で、その商の対数をとることによって計算され

1熱

1答えて

Apache SparkでJavaで文のTF-IDFベクトルを正しく正しく作成するには？私はこのコードを持っている

、 public class TfIdfExample { public static void main(String[] args){ JavaSparkContext sc = SparkSingleton.getContext(); SparkSession spark = SparkSession.builder() .confi

1熱

1答えて

TF-IDF行列の作成Python 3.6

私は100のドキュメントを持っています（各ドキュメントはそのドキュメントの単純なリストです）。 TF-IDF行列を作成して、ランクごとに小さな単語検索を作成したいと考えています。私はtfidfVectorizerを使って試しましたが、構文が失われました。どんな助けでも大歓迎です。よろしく。編集：私は文字列にリストを変換し、親リストにそれらを追加しました： vectorizer = TfidfVe

0熱

1答えて

TF-IDFベクタライザ検索クエリPython

TF-IDFベクタライザを作成するためにいくつかのドキュメントを変換しました。今私は検索クエリを処理し、TF-IDF値の降順でページのリストを返したいと思います。私は「語彙」の中で質問語の位置を得ることができます。しかし、それは疎な行列なので、私はそのインデックスでtf-idfの値を読み取ることができません。どんな助けでも大歓迎です。よろしくお願いします。

1熱

1答えて

TfIdfVectorizer：固定語彙を使用したベクトライザは、新しい単語をどのように処理しますか？

私は〜100kの研究論文のコーパスに取り組んでいます。私は三つのフィールド検討している：私はプレーンテキストフィールドのTFIDF表現を取得し、それによってを養うためにTfIdfVectorizerを使用する抽象タイトル平文をバックに単語を発しました3つの表現がすべて同じボキャブで作業されていることを保証するタイトルと抽象のベクトル化ツール。私の考えは、平文のフィールドが他のフィールドよりも