2017-01-26 14 views
1

で[この質問は、バイオインフォマティクスに固有のものです。そこポストは別の場所ですが、私は満足のいく答えを見つけることができませんでした。]欠損値lmFit [LIMMAのRパッケージ]

私は欠損値(NA)との遺伝子/タンパク質発現データを持っている場合は、どのようにlimmaパッケージのlmFitは、これらの値を処理しますか?欠損値は設計行列にではなく、むしろデータ行列内にのみ存在することに注意してください。あなたがポストやコメントを共有すること自由に感じ、助けることができる任意のウェブサイト/投稿を見つけた場合

library(limma) 
my_genes <- matrix(rnorm(9000, -10, 10), ncol=4) 
my_genes <- as.data.frame(my_genes) 
rownames(my_genes) <- paste("Gene", 1:nrow(my_genes)) 
## Randomly introducing NAs 
purrr::map_df(my_genes, function(x) {x[sample(c(TRUE, NA), prob = c(0.95, 0.05), size = length(x), replace = TRUE)]}) 
tx <- 1:2 #suppose treatment is columns 1 & 2 
ctrls <- 3:4 #suppose controls is columns 3 & 4 
my_design <- model.matrix(~factor(c(1,1,0,0))) 
my_design 
fit <- lmFit(my_genes, my_design) 
fit <- eBayes(fit) 
plot(fit$logFC, -log10(fit$p.value)) 

:ここ

は私の質問を示してシミュレートされ、実施例です。

答えて

1

This post in CrossValidatedは詳細に自分の質問に答えます。要するに、欠損値を扱う方法は、lmと似ています。欠損値を持つ行は、na.exclude、または「大文字小文字の削除」の対象になります。

代わりに:それは理想的なソリューションではありませんが、それだけで不足している遺伝子発現値を転嫁するのが適切かもしれません。たとえば、impute Bioconductorパッケージのknn.impute機能を使用します。