1
私はホスピタリティデータを分類しようとしています。列にベクトルの複数の文字列が含まれている場合は、新しい列を作成してください。
私のデータセットは、以下のデータセットのように見えますが、およそです。 400000行の長さ。
dataset<-data.frame(id=c(1001:1005), Role_title = c("Head Chef","Nurse",
"Latin America Travel Sales Consultants \xfc\xbe\x8c\xb6\x84\xbcK OTE \xfc\xbe\x8c\xb6\x84\xbcK","Cooks Wanted","Calling all waiters"))
私が探している用語は、フルストリングだけでなく、ステムでもあり、ベクターの長さは約100行です。
terms=c("chef","cook","wait")
私は新しい列を作成したいと思いますが、ベクトルから1つの以上の文字列が一致または部分的に行「Role_title」にマッチしている場合は、「用語が含まれています」に1を置く「用語が含まれています」、および0そうでない場合、データセットは以下のようになります。
dataset<-data.frame(id=c(1001:1005), Role_title = c("Head Chef","Nurse",
"Acting Director Sales","Cooks Wanted","Calling all waiters"),
Contains_terms=c(1,0,0,1,1))
terms=c("chef","cook","wait")
は、追加の質問はどのようにありますすべてのRole_title用語が文字であることを確認してください(例: "Assistant Caf \ xe9 Manager Rose Bay NSW")これを反映するコードを編集しました。 – monkeyshines
データセット$ Role_title <-gsub( '[[:digit:]]'、 ""、データセット$ Role_title) データセット$ Role_title <-gsub( "[[:punct ::]] "、" "、データセット$ Role_title) – monkeyshines
@MonikaSarderこのアップデートでは、ラテンアメリカの旅行セールスコンサルタントのようなものが私に"¼K OTEü¾ï¶ "K"というものを与えてくれました。例 – akrun