Rには自分のトークナイザを使ってテキストをベクターに変換できる方法はありますか?上記のコード
vectorizer = TfidfVectorizer(tokenizer=getTokens) X = vectorizer.fit_transform(corpus)
PythonとgetTokensで書かれている私のカスタムのトークナイザは、とにかくです私はR. で同じことを行うことができるように、私はR library(text2vec)
でライブラリもあるように言及したいと思いますいくつかありますが、私は取得していないRカスタムトークンを適用する方法 トークン=単語テキストをベクトルに変換するRでカスタムトークナイザを使用しますか?
0
A
答えて
1
「トークンはトークンにテキストを分割するプロセスです。トークンを使って言葉を参照すると仮定します。これは例えばRを用いて行うことができる。低レベルでstrsplit。例:
> example <- "This is an example. This is an example"
> unlist(strsplit(example, split = " "))
[1] "This" "is" "an" "example." "This" "is" "an" "example"
文字列が表示されているように、文字列は自動的に複数の文字列を含むベクターに変換されます。今は単純なスペースで分割しても特殊なケースはうまく処理されません。だから、より良い考慮すべき一つ以上の英数字以外の文字の正規表現を使用して:
> unlist(strsplit(example, split = "[^[:alnum:]]+"))
[1] "This" "is" "an" "example" "This" "is" "an" "example"
あなたはalnum代わりに空白別名"\\s+"
を使用することができます句読点を保持したい場合。
トークンを単語(例:文章または文字)と異なるものにしたい場合は、次のようにします。あなたは特別な場合を扱うことができるquantedaのtokenizerを使うことができます。ピリオドは新しい文章を示しません。
> example <- "This is an example. This is an example Dr. Knowitall"
> quanteda::tokens(example, what = "sentence")
tokens from 1 document.
text1 :
[1] "This is an example." "This is an example Dr. Knowitall"
独自のトークナイザが付属するその他のパッケージがいくつかあります。例えば、パッケージトークナイザは、それを提供します。
関連する問題
- 1. Rベクトルを1要素の文字列ベクトルに変換します
- 2. オブジェクトをJavaに変換するベクトルをベクトルに変換する
- 3. R data.frame列をベクトルに変換するRに適した方法は?
- 4. 変換\ rのテキスト)Pythonで
- 5. DNA配列をR/Wekaの数値ベクトルに変換する
- 6. リストを名前付きベクトルに変換するR
- 7. Rのコマンドライン引数を整数ベクトルに変換する
- 8. Rでの適用を使用して行列をペアリストに変換します。
- 9. ベクトルでdata.frameを変換することは可能ですか?R
- 10. R XMLを使用してXMLをJSONに変換する
- 11. ベクトルの要素をベクトルで置換するR
- 12. テキストをHPGL(プロッタ)ベクトル座標に変換する
- 13. Rを使用してファイルをPDFに変換(印刷)しますか?
- 14. JavascriptまたはPHPを使用してイメージをテキストに変換しますか?
- 15. テキストをテキストに変換中にテキストボックスのテキストを変換する
- 16. javascriptを使用してテキストを画像に変換する
- 17. JavaScriptを使用してテキストをピクセル座標に変換する
- 18. PDFをjavaを使用してテキストに変換する
- 19. R:ベクトル要素を行単位で結合するベクトル行を文字列に変換する
- 20. Rベクトルの値を使用してデータフレームの名前にする
- 21. Rを使って周波数をテキストに変換するには?
- 22. R式をテキストに変換するには?
- 23. R文字列を分割して数値ベクトルに変換する
- 24. CUDAで密ベクトルを疎ベクトルに変換するには?
- 25. innerHTMLを使用してテキストを変数名に変換するには、テキストをどのように変換するのですか?
- 26. constベクトルに変換する
- 27. Pythonを使用してテキストをCSVファイルのベクトルに変換し、ユークリッド距離を見つける方法
- 28. Numpyで列ベクトルを列ベクトルに変換する
- 29. Tensorflowでベクトルを単位ベクトルに変換する方法
- 30. R:内部変換を使用する変数をplmに伝えることはできますか?
基本的には、UR1検出でこのことを使用したいと思っています。ベクター形式のUrlを作成してスコアを予測しなければなりません。また、Rで同じ機能を作成してください。大助け。@ jonGrub –
あなたの質問にこれを追加し、トークン化したいいくつかのURLの例を挙げてください。あなたが見ることができるように、それは主に分割オプションに書き込むものに依存します。例えば、URLがコンマで区切られている場合、これを関数に入れることができます。 – JonGrub
githubのリンク:https://github.com/keshavm021/Using-Machine-Learning-in-R-Detecting-Malicious-Urls/blob/master/keshav.Rあなたは何が起こっているのか理解しています。大いに助けてください。@ jongrub –