DNA配列をR/Wekaの数値ベクトルに変換する

DNAシーケンスデータを使って種を同定するために、WeiveのNaive BayesやSVMなどの機械学習技術を使いたいと思います。問題は、DNA配列を数値ベクトルに変換する必要があることです。DNA配列をR/Wekaの数値ベクトルに変換する

MYシーケンスは次のとおりです。

------------------------------------ ------------ G ------------------------------------ ------ GGAGATG ------------------------------------------ GGAGATG ------------------------------------------ GGAGATG TTATTAATTCGAGCAGAATTAGGAAATCCTGGATCTTTAATTGGTGATG - -------------------------------------------- ATG CTATTAATTCGAGCTGAGCTAAGCCAGCCCGGGGCTCTGCTCGGAGATG - --------------------- TCAACCTGGGGCCCTACTCGGAGACG ---- TAATCCGAGCAGAATTAAGCCAACCTGGCGCCCTACTAGGGGATG CTATTAATTCGAGCTGAGCTAAGCCAGCCTGGGGCTCTGCTCGGAGATG TTATTAATTCGTTTTGAGTTAGGCACTGTTGGAGTTTTATTAG ---私はこれを行うことができますどのようにATA

？ Weka以外のDNA配列でMLを行うための他のプログラムの提案はありますか？

出典

2016-12-05 Juan Pablo Aguilar Cabezas

この答えは、あなたがこのためにRのBiostringsパッケージを使用することができR.

を使用しています。

最初のパッケージをインストールします。

source("http://www.bioconductor.org/biocLite.R") 
biocLite(c("Biostrings"))

変換文字列をDNAstringに：また

dna1 <- DNAString("------------------------------------------------G------------------------------------------GGAGATG")

、

dna2 <- DNAStringSet(c("ACGT", "GTCA", "GCTA")) 


alphabetFrequency(dna1) 
letterFrequency(dna1, "GC") 
....

を次に（あなたがしなければならない場合）あなたはRからウェカ関数を呼び出すことができます、例えばNaive BayesをNB <- make_Weka_classifier("weka/classifiers/bayes/NaiveBayes") ; NB(colx ~ . , data=mydata)と置き換えたり、望むようにデータを変換したり、Weikaが理解できる他のタイプのファイルにエクスポートすることができます。 foreign::write.arff()の機能が気になります。しかし私はWekaをこれに使用しません。

言うまでもなく、これらの配列をwebsite performing a BLAST searchに入力し、種候補を取得するだけで簡単に入力できます。

CTATTAATTCGAGCTGAGCTAAGCCAGCCCGGGGCTCTGCTCGGAGATGの場合、91％の確率で「バンドドロックトカゲ」（Petrosaurus mearnsi）からミトコンドリアDNAが得られます。

出典

2016-12-05 15:46:04 knb

DNA配列をR/Wekaの数値ベクトルに変換する

答えて

関連する問題