で始まるテキストファイルから行を削除します。テキストマイニング - 私は次のようにRにテキストファイルを読んでいるキーワード
test<-readLines("D:/AAPL MSFT Earnings Calls/Test/Test.txt")
このファイルは、PDFから変換し、私がしたいいくつかのヘッダデータを保持しました。 〜を取り除くために。彼らは「ページ」、「マーケットキャップ」などの言葉で始まります。
TXTファイルでこれらのキーワードを含むすべての行を削除するにはどうすればよいですか?これは、その単語を含む行を削除するのとは対照的です。私はここで
setwd("C:/Users/George/Google Drive/PhD/Strategic agility/Source Data/Peripherals Earnings Calls 2016")
text1<-readLines("test.txt")
text
library(purrr)
library(stringr)
text1 <- "foo
Page, bar
baz
Market Cap, qux"
text1 <- readLines(con = textConnection(file))
ignore_patterns <- c("^Page,", "^Market\\s+Cap,")
text1 %>% discard(~ any(str_detect(.x, ignore_patterns)))
text1
で読むためにビットを変更し、以下の答えのいずれかを使用して
は、私が手に出力されます:
> text1
[1] "foo" "Page, bar" "baz" "Market Cap, qux"
のfoo/bazに/ qux何ですか文字?
'grepl( "^(ページ|時価総額)"、DFの$ idは)'行のサブセットに使用します。あなたのキーワードに置き換えてください。あなたの最初の列で 'id'を入力してください –