text-analysis

-2熱

1答えて

私は企業の収入通話のためにいくつかの功績を残しています。like this私は話されている言葉のタイトル数に比例してあるタイトルを持つ会社で個人が話す言葉の数を数えたいと思う。ご覧のとおり、この情報はヘッダーテキストで太字で示されています。私のコーディング経験は正直な限りではありますが、私はこれを行うためにPythonを学んでいます。誰もがこれについて行く方法のための任意の勧告を持っていますか？

2熱

1答えて

キーの用語（コーパス）を別のものに検索するR

私はコードを提供しなかったので、この質問を以前に聞いて、否定的なフィードバックを得ました。私は一日を過ごして試してみると、今は問題に悩まされています。このコードは、Stackoverflowのユーザーが "Tyler Rincker" <で取得しました - 彼に大きな感謝！ここはコードです： strip <- function(x, digit.remove = TRUE, apostroph

0熱

3答えて

どのように単語を文から区切り、平均するのですか？テキストマイニングR

私は何百もの電子メールの件名リストを持っています。件名ごとに、私は電子メールのオープンレート（開封済み電子メール/配信済み電子メール）の値を持っています。例： list of subject lines いくつかの単語には平均開封率に影響があるかどうかわかります。たとえば、電子メールの件名に「ありがとう」と書いても、電子メールの開封率が高くなる可能性があります。論理的な手順を正しく理解してい

1熱

1答えて

フィルタリングされたアイテムに基づいたPANDAS DROP ROWS、私の解決策 - 満足していません

私はリストのドメイン名のクリーニングに取り組んでいます。基準に「適合」している特定の行を削除します。私は最初の基準を特定するのに成功しました、第二は簡単に行うことができます。しかし、私は行を削除することはできません。私はいくつかの解決策を試しましたが、私が持っているベストは次のとおりです。 from wordsegment import segment import pandas as pd

0熱

2答えて

迷惑メールデータをテキスト分析からどのように取り除くことができるのですか

私はRにとって新しく、最近テキスト解析プロジェクトで作業を開始しました。私は自分の話を構成する言葉を語りたいと思っています。私がインストールされているパッケージは、次のとおりです。 tm SnowballC wordcloud データはフィードバックのもので、英語の言語の一部ではないチケット生成のためのジャンクワードの多くが含まれています。ジャンクの言葉を削除する方法はありますか？適切

0熱

3答えて

リミテッド結果は

は、私は（私はその限度は約3000であると信じて） twitterRのAPIで取得するために許容される最大数のつぶやきを取得したいsearchTwitter()および/またはuserTimeline() を使用してツイートを取得しようとしていますしかし、私は結果が非常に少ない（83または146のような）投稿を取得しています。そのユーザーのタイムライン（ブラウザまたはアプリケーションを介して）をチェ

0熱

1答えて

は、どのようなツールのWebスクレイピングとテキスト分析に適していますか？

私の目標は、キーワード「炎症性腸疾患」を含むWebページのためのWebをこすりすることです。それから私はこのような症状や治療法などの情報を収集し、リスト上のテキスト分析を適用し、抽出したいです。これは可能ですか？もしそうなら、どんなツールが推奨されますか？そうでない場合、そのような問題にアプローチする正しい方法は何ですか？

10熱

1答えて

スパース行列（csc_matrix）をpandasデータフレームに変換する

この行列をpandasデータフレームに変換したいと考えています。 csc_matrix ブラケットに最初数インデックス、第数で列とデータある端で数でなければなりません。テキスト分析で機能選択を行うには、最初の数字が文書を表し、2番目が単語の機能で、最後の数字がTFIDFスコアです。データフレームを取得すると、テキスト分析の問題をデータ分析に変換するのに役立ちます。

0熱

1答えて

ElasticsearchでASCII文字が正しく折りたたまれています

this guideのような非標準ASCII文字の折りたたみをサポートしています。 PUT /my_index { "settings": { "analysis": { "analyzer": { "folding": { "tokenizer": "standard", "filter": [ "lowercase",

0熱

1答えて

Hibernate検索Luceneのアクセントに依存しない検索

私は、Hibernate Search/LuceneのインテグレーションでJ2Eアプリケーションを開発しています。ドキュメント（および他のエンティティ）にインデックスを付け、その上でアクセントを区別しない検索（コンテンツとクラスのフィールド）を行いたいと思います。いくつかの検索およびドキュメントの後 ...私はあるFrenchAnalyzerを使用していは、大文字と小文字を区別しません（それは良