nltk

0熱

2答えて

私は段落を持っています。単語から句読点を区切ってトークン化し、結果を出力したいと思います。特別な場合があります（Peterなどの略語、小数などの米国の&などの略語）を手紙に添付し、それらを区切らないようにしてください。は、私は次のコードを実行します。 import re text = "My weight is about 68 kg, +/- 10 grams! I live in U.S

0熱

1答えて

略語とアポストロフィを除いた単語と句読点を区切ってテキストをトークン化する

略語とアポストロフィを考慮しながら、句読点を単語から区切って入力テキストを入力しました。私はPythonとnltkライブラリを使用していますが、私は正規表現が正しくないと思います。まだ出力が間違っています。 # coding: utf-8 import re import nltk from nltk.tokenize import * text = "\"Predictions sug

0熱

1答えて

python tokenizer word2vecのモデルに2ワードのフレーズ

私はword2vecのpython gensimパッケージを使用しています。私はトークン化された単語と2単語のフレーズでモデルを実行したいと思います。私は10,000〜ドキュメントがあり、nltk Regextoknizerを使ってすべてのドキュメントから単一の単語トークンを取得しました。 2語句を取得するには、どのようにして文書をトークナイザ化できますか？例えば：文書： "私は緑のリンゴを

0熱

1答えて

nltkリストにストップワードを追加するには？

私は以下のコードを持っています。 nltkストップワードリストに単語を追加する必要があります。私はthsiを実行した後、リストに単語を追加しません。 from nltk.corpus import stopwords from nltk.stem.wordnet import WordNetLemmatizer import string stop = set(stopwords.words

1熱

1答えて

タグ付けリスト

私が使用してトークン化されたパンダのDFの列があります。 df['pos_col'] = nltk.tag.pos_tag(df['token_col']) df['wordnet_tagged_pos_col'] = [(w,get_wordnet_pos(t)) for (w, t) in (df['pos_col'])] しかしI：今、私はそれらのトークン化の単語使用してタグ付けしよう

-3熱

1答えて

Pythonのlambda関数で何が起こっていますか？

テキスト文書から特徴抽出を学習しており、this tutorialが見つかりました。 3行目の末尾にあるnp.asarray(doc_counts.sum(axis=0)).ravel()が返ってくるのを理解できませんでした。私はこれをチェックし、数字のリストを返しました。私はそれが用語 - 頻度だと思うが、私は確信していない。そして、idx: -1 * idx[1]が何をしているのですか？特に

-2熱

1答えて

抽出データは、私はこのPythonのセット持って

を設定します。 >>> print (x) [(0, Synset('basic.n.01'), Synset('cry.v.02')), (3, Synset('base.n.01'), Synset('help.v.04'))] を私はこのようなリストや辞書にそれを解析したい： {"value": 0, "keyword1": "basic", "keyword2": "cry"}

1熱

1答えて

文章間の関係を取得する

私は自然言語の理解に基づいたプロジェクトに取り組んでいます。私が現在やっていることは、代名詞をそれぞれの前件に照会しようとすることです。それに対して、私はモデルを構築しようとしています。私はそれの基本的な部分を工夫しましたが、その作業を完了するために、私はその文の物語を理解する必要があります。ですから、私が望むのは、名詞とオブジェクトが、PythonでAPIを使って動詞によって互いに関連付けられ

-1熱

1答えて

HTMLコンテンツをリストに表示

HTMLページからすべてのコンテンツを読み込み、これをリストに保存します。あなたのplsは、Python例についてはのオプションをお勧めでした： URL： https://en.wikipedia.org/wiki/Chancellor_of_Germanyは、このページのすべてのコンテンツを取得し、一覧でこれを保管しドイツの首相ドイツの政府長。ドイツ語の公式タイトルはBundeskanzl

-1熱

1答えて

GETのURLの中の単語の渡されたリストにアクセスすることができません

どのように郵便配達からlistを渡すために、どのように複数の属性 @api.route('/Spacy/<input>/<texts>') class Spacy(Resource): if input == pos: def get(self, input): ''' Returns part-of speech. '''