tokenize

    0

    2答えて

    from nltk.tokenize import word_tokenize music_comments = [['So cant you just run the bot outside of the US? ', ''], ["Just because it's illegal doesn't mean it will stop. I hope it actually gets enf

    0

    1答えて

    非常に特有の問題があります。 extract関数は、XMLファイルを受け取り、レストランのレビューをキーとして使用して辞書を生成します。ここでは、テキストをトークン化し、句読点が削除され、辞書に再挿入される前に「トークン化されていません」というように、テキストに基本的な前処理を行っています。 import string from nltk.tokenize import word_tokeniz

    0

    1答えて

    Word2Vecモデルに文章を追加すると、「ISO 9001」が「ISO」として返されるなど、数値で始まる、または始まる単語が削除されているように見えます。 ... ありがとうございます。

    0

    1答えて

    私が勉強したいテキストがあるとしましょう。文章と段落の数は、そのままで保存することが重要です(点が文の終わりをトリガーし、改行が新しい段落の開始点になります)。のは、私が最初に私のテキストをトークン化する必要があるとしましょう:あなたが見たよう >>> from nltk import word_tokenize as tokenize >>> tokenize('How\'s life? Ar

    1

    1答えて

    私はコーパスに対してunigramsとbigramsの2つの文書 - 項行列を作ろうとしています。しかし、バイグラム・マトリックスは現在、ユニグラム・マトリックスとまったく同じです。私はなぜその理由がわかりません。 コード: docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices Big

    -4

    1答えて

    テキストファイルの各文に含まれる単語の数と平均の長さを出力するには、Pythonを使用する必要があります。この割り当てにNLTKまたはRegexを使用することはできません。 ファイル内の文は、ピリオド、感嘆符、または疑問符で終わります。ハイフン、ダッシュ、またはアポストロフィは文を終了しません。引用符は文を終わらせません。しかし、ある期間は文章を終わらせない。例えば、Mrs.、Mr.、Dr.、Fr

    0

    1答えて

    私はpythonを使ってテキスト解析タスクを行っています。ここでは、テキスト処理タスクにNLTKを使用しました。私の場合は、あらかじめ定義されたbiwordsのセットがあります。 arr = ['Animo Text Analytics Inc.', 'Amila Iddamalgoda'] また、以下のような文章があります。 sentence = "Amila Iddamalgoda is

    3

    1答えて

    トークン化コードがかなり複雑であることがわかりましたが、コード内のどこに文が分割されているのかわかりませんでした。 例えば、どのようにトークナイザが Mr. Smitt stayed at home. He was tired は「ミスター」に分割すべきではないことを知っているん"彼"の前に分割する必要があります。そして、コードのどこで "彼"が起こる前に分割が行われますか? (私は右の場所で探し

    1

    1答えて

    テキストファイルから各単語をJava 8ストリームのストリングとして取得する方法はありますか? など。あなたはTEST.TXTています Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod をあなたはストリームを取得: BufferedReader br = new BufferedReader(new

    0

    1答えて

    私は、RobotFrameworkのようなスペース区切り構文(http://robotframework.org)のテキストファイルのエディタとしてWeb GUIにモナコエディタ(https://github.com/Microsoft/monaco-editor)を実装しています。各キーワード/引数は、2つ以上の連続する空白を使用して区切られます。キーワード/引数には、連続していない場合は、1つ