text-analysis

0熱

1答えて

Rapid Minerには、最も予測的な単語の出現範囲を簡単に見つける方法はありますか？

質問に記載されているように、視覚的に例セットを見て1に近い数字を見つけて、単語リストのその属性の出現をチェックする以外に、簡単に私の質問に対する答えを見つけることができますか？最も予測される単語を表示するグラフですか？おかげ

1熱

2答えて

私はWord2Vecに非常に似ているFastText、https://pypi.python.org/pypi/fasttextで遊んでいます。以来、それはまだ多くの機能を内蔵していないかなり新しいライブラリのようです。私は形態学的に似た言葉をどのように抽出するのかと思っていました。例えば：model.similar_word（ "dog"） - > dogs。しかし、機能は組み込まれていません。

0熱

1答えて

計算ユークリッド距離が

には、次の2つの文を考えてみカウントします。文1：クイックブラウンキツネは怠惰な犬の上を飛びます。センテンス2：迅速な茶色の犬は迅速なキツネをしのぎます。計算ワードカウントを使用してユークリッド距離。

1熱

1答えて

非構造化テキストを分析するにはどうすればよいですか？

TF-IDFを使用して、私の辞書の構築に役立つ重量に影響を与えます。私のモデルは、構造化されていないテキストがあるため、実際には十分ではありません。 TF-IDF同様のアルゴリズムに関する任意の提案ですか？

0熱

1答えて

txtファイルのフォルダをPythonの変数として保存する方法

変数としてPythonにインポートしたいtxtフォルダのフォルダがあります。理想的には、各txtファイルがリスト内の要素である変数 'profession_texts'が必要です。これは私が現時点で持っているものです。しかし import os profession_folder_path = '../fp/Updated/Profession/' profession_files = os.

-1熱

1答えて

文書の用語集作成時の属性エラー

私はPandasデータフレームの形式で表現された文書用語行列を作成しようとしています。ここに私のコードは、これまでのところです：私はこのコードを実行すると df_profession['Athlete_Clean'] = df_profession['Athlete Biographies'].str.lower() df_profession['Athlete_Clean'] = df_pro

0熱

1答えて

ビッグラム分析と用語ドキュメントマトリックス

私はテキストコーパス上でバイグラム分析を行っています。私の特徴ベクトルは、事前定義されたbigramとunigramトークンのセットです。特徴ベクトル =（良い場所、悪い経験、きれいな、非友好的な、整頓、素晴らしい、美しい場所）私のテキスト：場所は良いが、非友好的なスタッフです。清掃されたテキスト：場所良好で不親切なスタッフ。私は上記の辞書ときれいなテキストを使ってtdfを作成しましたが、

0熱

1答えて

コグニティブサービスでTopicsエンドポイントを取得できません

マイクロソフトコグニティブサービスText Analytics APIのトピックエンドポイントを取得するサンプルアプリケーションを実行しようとしましたが、この関数は400 HTTPエラーを返します。ここではコードです： static async Task<string> CallTopicEndpoint(HttpClient client, string uri, byte[] byteDat

0熱

1答えて

テキストファイルから特殊文字を削除する方法はありますか？

私はコマンドラインからいくつかの基本的なテキスト分析をしようとしていますが、コマンドを実行しようとするたびに次のようになります：tr：不正なバイトシーケンス。私はテキスト内の特殊文字に問題を絞り込んだ（ '、、¨など）テキストからこれらの特殊文字を削除するためにできることはありますか？コマンドラインを使用することはできますか？またはスクリプトを実行する必要がありますか？

0熱

2答えて

関連するウィキペディアの記事の共通トピックを検索してください。

私は何千ものウィキペディアの記事からなるラベルのないデータセットを持っています。これらの記事は、その内容に関して密接に関連する記事のセットにグループ分けされています。これらのセットのうちの1つを指定すると、すべての記事が属する一般的なトピックを特定したいと考えています。例：彼らのタイトルで関連記事の以下の集合が与えられる： {微積分、行列、数論} 私は、共通の話題が数学であると判断すること