2016-03-30 15 views
4

私は再現性のためにKnitrを使用して 'tm'と 'RWeka'を使っていくつかの初期テキストマイニングを行っています。Ritudioとは異なる結果を提供するKnitr

私は2つのテキストファイルに基づいて、コーパスのための用語 - 文書行列を取得しようとしている、と私はHTMLファイルにそれを編むとき、私はRStudioでコードを実行したときにプロセスが異なる結果を持っていますHTML file

...他のドキュメント出力を試したときPDFとWord出力:PDF and Word outputs

はRStudioに同意します。そして、私はHTML出力を必要とする

....

に行くことかもしれないものの任意のアイデア?

ここでは.Rmdコード

--- 
title: "test" 
author: "me" 
output: word_document 
--- 

```{r init, echo=FALSE, warning=FALSE, cache=TRUE, message=FALSE} 
library(knitr) 
library(tm) 
library(SnowballC) 
library(RWeka) 
setwd("~") 
options(mc.cores=1) # some problems with parallel processing 
``` 
```{r 1-gram-test, echo=FALSE, eval=TRUE,cache=TRUE} 

doc1 <- c("en un lugar de la mancha de cuyo nombre no quiero acordarme habitaba un hidalgo de los de adarga antigual, rocín flaco y galgo corredor") 
doc2 <- c("había una vez un barquito chiquitito, que no sabía, que no sabía, que no sabía navegar... pasaron un dos tres cuatro cinco seis semanas y el barquito navegó.") 
docs <- c(doc1, doc2) 
es <- Corpus(VectorSource(docs), 
     readerControl = list(reader = readPlain, 
           language = "ES-es", load = TRUE)) 
es 
# convert to plain text 
es1 <- tm_map(es, PlainTextDocument) 

monogramtok <- function(x) { 
    RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 1, max = 1)) 
} 

es_tdm1 <- TermDocumentMatrix(es1) 

esmono_tdm1 <- TermDocumentMatrix(es1, 
           control = list(tokenize = monogramtok, 
               wordLengths = c(1, Inf))) #,        

printf("es_tdm1") 
es_tdm1 

printf("esmono_tdm1") 
esmono_tdm1 

`

のSessionInfo(IS) Rバージョン3.2.3(2015年12月10日) プラットフォーム:x86_64の-アップルdarwin13 OS X 10.11.4(エルキャピタン)

ロケール: [3] EN_US.UTF-8/EN_US.UTF-8/EN_US.UTF-8/C /の下に実行.4.0(64ビット) EN_US.UTF-8/EN_US.UTF-8

取り付けられたベースパッケージ: [3]統計グラフィックgrDevices utilsのデータセットメソッドベース

他の取り付けパッケージ: [3] R.utils_2.2.0 R.oo_1 .20.0 R.methodsS3_1.7.1 dplyr_0.4.3 xtable_1.8-0
[6] pander_0.6.0 RWeka_0.4-24 SnowballC_0.5.1 tm_0.6-2 NLP_0.1-9
[11] knitr_1.12.3

+0

どう違うのですか?警告やエラーはありますか? – alistaire

+0

コンソールで同じコードを複数回実行すると、結果は一致しますか? – Gregor

+0

警告やエラーは一切ありません(PDF、HTMLまたはRStudio)。 –

答えて

2

私は同様の問題があり、私がknitrのチャンクをキャッシングしていることを認識しました。イオンcache=TRUE(あなたも同様に設定されているようです)。

キャッシュされたチャンクに副作用があるか、外部リソースに依存している場合、これによって実際には微妙なエラーが発生する可能性があります。

キャッシングを無効にすると、再現性の問題がなくなりました。

関連する問題