です。AGENDA ITEMあたりのページ数を数えなければなりません。私はpdf文書からテキストをデータフレームに抽出しました。このデータフレームの本質的に1つの行には、1ページのテキストが含まれています。これは私のデータがどのように見えるかです:件数AGENDAテキストマイニング1件あたりのページ数は
AGENDAのTEXT(同じ行)の下でmydf <- data.frame(text = c("AGENDA ITEM 1
4", "This particular row contains a lot of text, really its all text present in one page",
"So ineffect, one page of text per row", "This is another page of text in this row",
"lets include another page for agenda 1", "AGENDA ITEM 2
9",
"now all the text in agenda 2 is included here","the 2nd page text of agenda 2",
"AGENDA ITEM 3
12", "Now lets just add one row for this agenda, meaning it only has one page inside it"))
、数はページ番号があり、それは、同じ行にあります。アジェンダごとのページ数をカウントするには、次のアジェンダ項目が表示されるまで行数をカウントするだけです。上記の例を考えてみると、答えは
AGENDA ITEM 1 = 4 Pages, AGENDA ITEM 2 = 2 Pages and AGENDA ITEM 3 = 1 Page.
どのようにすればよいですか? 私はテキストを分析するのがかなり新しいです。ありがとう
よう
grep
を使用することができます。私はそれをドキュメント全体でテストしたところ、驚くほど効果がありました。 – Syedあなたの川下のタスクに応じて、 'strsplit()'を使って希望のパターンで行を分割し(出力はリストになります)、各要素の行数をカウントすることも考えられますが、あなたのオリジナルテキストをそのまま維持してください。あなたの問題を解決した場合、回答を受け入れることを検討してください。 –
申し訳ありません!私はここで新しいので、あなたの答えを「答えた」とマークする方法がわかりませんでした。私はちょうどそれをgoogledとそれはちょうど目をつぶすの問題だった。はい、私はそれがそのままのテキストを保つが、ありがとう:) – Syed