tokenize

0熱

2答えて

from nltk.tokenize import word_tokenize music_comments = [['So cant you just run the bot outside of the US? ', ''], ["Just because it's illegal doesn't mean it will stop. I hope it actually gets enf

0熱

1答えて

なぜ辞書処理キーを失う前処理ですか？

非常に特有の問題があります。 extract関数は、XMLファイルを受け取り、レストランのレビューをキーとして使用して辞書を生成します。ここでは、テキストをトークン化し、句読点が削除され、辞書に再挿入される前に「トークン化されていません」というように、テキストに基本的な前処理を行っています。 import string from nltk.tokenize import word_tokeniz

0熱

1答えて

数値を含むWord2Vec単語

Word2Vecモデルに文章を追加すると、「ISO 9001」が「ISO」として返されるなど、数値で始まる、または始まる単語が削除されているように見えます。 ... ありがとうございます。

0熱

1答えて

改行と段落構造を維持しながらトークン化

私が勉強したいテキストがあるとしましょう。文章と段落の数は、そのままで保存することが重要です（点が文の終わりをトリガーし、改行が新しい段落の開始点になります）。のは、私が最初に私のテキストをトークン化する必要があるとしましょう：あなたが見たよう >>> from nltk import word_tokenize as tokenize >>> tokenize('How\'s life? Ar

1熱

1答えて

R-bigramトークナイザの文書用語行列が動作しない

私はコーパスに対してunigramsとbigramsの2つの文書 - 項行列を作ろうとしています。しかし、バイグラム・マトリックスは現在、ユニグラム・マトリックスとまったく同じです。私はなぜその理由がわかりません。コード： docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices Big

-4熱

1答えて

文中の単語を数えて平均化する

テキストファイルの各文に含まれる単語の数と平均の長さを出力するには、Pythonを使用する必要があります。この割り当てにNLTKまたはRegexを使用することはできません。ファイル内の文は、ピリオド、感嘆符、または疑問符で終わります。ハイフン、ダッシュ、またはアポストロフィは文を終了しません。引用符は文を終わらせません。しかし、ある期間は文章を終わらせない。例えば、Mrs.、Mr.、Dr.、Fr

0熱

1答えて

nltkを使って既知のバイワードの文章をどのようにトークン化するのですか？

私はpythonを使ってテキスト解析タスクを行っています。ここでは、テキスト処理タスクにNLTKを使用しました。私の場合は、あらかじめ定義されたbiwordsのセットがあります。 arr = ['Animo Text Analytics Inc.', 'Amila Iddamalgoda'] また、以下のような文章があります。 sentence = "Amila Iddamalgoda is

3熱

1答えて

spaCyトークナイザはどのように文を分割しますか？

トークン化コードがかなり複雑であることがわかりましたが、コード内のどこに文が分割されているのかわかりませんでした。例えば、どのようにトークナイザが Mr. Smitt stayed at home. He was tired は「ミスター」に分割すべきではないことを知っているん"彼"の前に分割する必要があります。そして、コードのどこで "彼"が起こる前に分割が行われますか？（私は右の場所で探し

1熱

1答えて

Java InputStreamからJava8 Streamへのトークン化

テキストファイルから各単語をJava 8ストリームのストリングとして取得する方法はありますか？など。あなたはTEST.TXTています Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod をあなたはストリームを取得： BufferedReader br = new BufferedReader(new

0熱

1答えて

Monaco Editor - 同じ行の任意の数の引数を再帰的な状態で一致させますか？

私は、RobotFrameworkのようなスペース区切り構文（http://robotframework.org）のテキストファイルのエディタとしてWeb GUIにモナコエディタ（https://github.com/Microsoft/monaco-editor）を実装しています。各キーワード/引数は、2つ以上の連続する空白を使用して区切られます。キーワード/引数には、連続していない場合は、1つ