nlp

1熱

1答えて

インド政府の調査サイトからダウンロードしたパンジャブ語のコーパスについてNLTKに分析を依頼しようとすると、そのスクリプトはGurmikhiです。私の主な目標は、コーパス全体で単語の頻度分布を得ることです。だから、ここでの目的はすべての単語をトークン化することです。私の問題は、NLTKは、私はPythonのメソッドに建てを使用するときため、テキストを読んでいるかであるように思わ： with op

4熱

3答えて

Rの否定、Rの否定に続く単語をどのように置き換えることができますか？

私は否定の後に接頭語「not_」を追加する方法について、hereに質問された質問にフォローアップしています。コメントの中で、MrFlickは正規表現gsub("(?<=(?:\\bnot|n't))(\\w+)\\b", "not_\\1", x, perl=T)を使用して解決策を提案しました。この正規表現を編集して、句読点があるまで "not"または "not"の後に続くすべての単語にnot

0熱

2答えて

Spacyでトークンの類似性を見つけるにはどうすればいいですか？

私はspacyのトークンの類似性を計算しようとしています。私。単語トークンが互いにどれほど近いかを示します。私はspacyバージョン2.0.5を使用しています。ここに私の簡単な例があります。 import spacy from spacy.lang.en import English from spacy.tokenizer import Tokenizer nlp = spacy.loa

0熱

1答えて

すべてのデータセットまたはトレーニングデータにtfidf

この本の "TensorFlow Machine Learning Cookbook"のデータ処理では、fit_transformの機能を使用してscikitの機能を学び、tfidfのテキストをトレーニング用に学習します。著者は列車を分離して機能テストする前にすべてのテキストデータを提供します。それは真の行動ですか、それとも最初にデータを分離して、電車でtfidf fit_transform、テス

0熱

1答えて

悪影響がgensimでのモデルのパフォーマンスにどのように影響しますか？

私は論文を読んでいます。単語とフレーズの分散表現とその構成性。これは非常に興味深いですが、私は本当にパラメータ '否定'と最終的なパフォーマンスの関係が不思議です。私は個人的には、最終的なパフォーマンスがある値まで負の増加として良くなるかもしれないと思います。比較のために使用しているネガティブサンプルが多いほど、より良い結果が理論的に得られるはずです。もちろん、パフォーマンスはいくつかの点まで

1熱

1答えて

文字列の都市名を見つける

私は、1つ以上のオランダの都市名を含む文字列（文）のリストを持っています。私はまた、オランダの都市のリストとその様々なスペルを持っています。私は現在Pythonで作業していますが、別の言語のソリューションも使えます。文章に記載されている都市のリストを取得するには、どのような方法が最も効率的でしょうか。私は、現時点では何は、文のリストをループし、そのループ内で、都市のリストをループし place

0熱

1答えて

クラスタリングを使用して類似の意図を持つ文章をグループ化するにはどうすればよいですか？

私はPythonで、生のチャットデータとクラスターセンテンスを同様の意図で処理できるように開発しようとしています。そのため、新しいチャットボットを構築するためのトレーニング例として使用できます。目標はできるだけ迅速かつ自動（すなわち、手動で入力するパラメータなし）にすることです。 1-特徴抽出のために、私はそれぞれの文をトークン化し、その語をステミングし、SklearnのTfidfVectoriz

2熱

1答えて

ラサコアとラサnluの違い

ラサについてはRasa coreとRasa nluの公式文書から理解しようとしましたが、あまり推測できませんでした。ラサNLUは、（エンティティ）の情報を抽出するテキストを理解し、処理する第二のものである間、私が理解することができていますがラサコアがconversatationの流れを導くために使用されている、との例がありますRasa coreと同様にRasa nluにチャットボットを作成する

0熱

1答えて

LDAに関する提案

私は、テキスト文書の束（約140本）についてテキスト分析をしようとしています。各文書は、前処理して不必要な単語とストップワードを除去した後、約7000文（nlktの文トークナイザによって決定される）を有し、各文は平均約17語を有する。私の仕事は、それらの文書に隠されたテーマを見つけることです。私は、トピックモデリングをやっについて考えています。しかし、私が持っているデータがLDAを介して意味のあ

-1熱

1答えて

Weka - クラシファイアはすべての入力に対して同じ分布を返します

私は2つのクラス間でテキストを分類するための素朴なベイベイ分類子を構築しようとしています。すべてがGUIエクスプローラでうまく動作しますが、コードで再作成しようとすると、どの入力を分類しようとも、同じ出力が得られます。コード内では、GUI内で得られるのと同じ評価基準（81％の精度）が得られますが、新しいインスタンスを作成して分類するたびに、入力に関係なく両方のクラスに対して同じ分布が得られます私