nltk

    0

    2答えて

    私は段落を持っています。単語から句読点を区切ってトークン化し、結果を出力したいと思います。特別な場合があります(Peterなどの略語、小数などの米国の&などの略語)を手紙に添付し、それらを区切らないようにしてください。 は、私は次のコードを実行します。 import re text = "My weight is about 68 kg, +/- 10 grams! I live in U.S

    0

    1答えて

    略語とアポストロフィを考慮しながら、句読点を単語から区切って入力テキストを入力しました。私はPythonとnltkライブラリを使用していますが、私は正規表現が正しくないと思います。まだ出力が間違っています。 # coding: utf-8 import re import nltk from nltk.tokenize import * text = "\"Predictions sug

    0

    1答えて

    私はword2vecのpython gensimパッケージを使用しています。 私はトークン化された単語と2単語のフレーズでモデルを実行したいと思います。私は10,000〜ドキュメントがあり、nltk Regextoknizerを使ってすべてのドキュメントから単一の単語トークンを取得しました。 2語句を取得するには、どのようにして文書をトークナイザ化できますか?例えば : 文書: "私は緑のリンゴを

    0

    1答えて

    私は以下のコードを持っています。 nltkストップワードリストに単語を追加する必要があります。私はthsiを実行した後、リストに単語を追加しません。 from nltk.corpus import stopwords from nltk.stem.wordnet import WordNetLemmatizer import string stop = set(stopwords.words

    1

    1答えて

    私が使用してトークン化されたパンダのDFの列があります。 df['pos_col'] = nltk.tag.pos_tag(df['token_col']) df['wordnet_tagged_pos_col'] = [(w,get_wordnet_pos(t)) for (w, t) in (df['pos_col'])] しかしI:今、私はそれらのトークン化の単語使用してタグ付けしよう

    -3

    1答えて

    テキスト文書から特徴抽出を学習しており、this tutorialが見つかりました。 3行目の末尾にあるnp.asarray(doc_counts.sum(axis=0)).ravel()が返ってくるのを理解できませんでした。私はこれをチェックし、数字のリストを返しました。私はそれが用語 - 頻度だと思うが、私は確信していない。 そして、idx: -1 * idx[1]が何をしているのですか?特に

    -2

    1答えて

    を設定します。 >>> print (x) [(0, Synset('basic.n.01'), Synset('cry.v.02')), (3, Synset('base.n.01'), Synset('help.v.04'))] を私はこのようなリストや辞書にそれを解析したい: {"value": 0, "keyword1": "basic", "keyword2": "cry"}

    1

    1答えて

    私は自然言語の理解に基づいたプロジェクトに取り組んでいます。 私が現在やっていることは、代名詞をそれぞれの前件に照会しようとすることです。それに対して、私はモデルを構築しようとしています。私はそれの基本的な部分を工夫しましたが、その作業を完了するために、私はその文の物語を理解する必要があります。ですから、私が望むのは、名詞とオブジェクトが、PythonでAPIを使って動詞によって互いに関連付けられ

    -1

    1答えて

    HTMLページからすべてのコンテンツを読み込み、これをリストに保存します。 あなたのplsは、Python例については のオプションをお勧めでした: URL: https://en.wikipedia.org/wiki/Chancellor_of_Germanyは、このページのすべてのコンテンツを取得し、一覧でこれを保管し ドイツの首相ドイツの政府長。ドイツ語の公式タイトルはBundeskanzl

    -1

    1答えて

    どのように郵便配達からlistを渡すために、どのように複数の属性 @api.route('/Spacy/<input>/<texts>') class Spacy(Resource): if input == pos: def get(self, input): ''' Returns part-of speech. '''