2016-10-29 7 views
4

特定のアダプターフラグメントを使用してDNA配列決定から生成されたストリングのセットSがあります。これは、S内のすべての文字列が、アダプター配列の接頭辞にほぼ一致する接尾辞を含むことを意味します。どのようにして、集合SのみがSを生成するために使用される最も可能性の高いアダプター系列を推定することができるか?フラグメントのセットからアダプター配列を推定する

セットSは非常に大きく、それぞれが50文字の長さの約100万のフラグメントです。私はセットS上の一般的なサフィックスツリーを構築することが大いにこの問題を助けることを知っているが、私は最も可能性の高いアダプターシーケンスを見つけるために使用する方法が不明です。

+0

文字列は、配列決定の誤りのはどのようなものを含めることができますか?特に、置換エラーだけが存在するか(またはほとんど)、挿入や削除が可能ですか? –

+1

エラーは置換エラーだけに限られます。 – Wims

+0

キーワードは 'blast de novo assembly'ですGIYF – wildplasser

答えて

関連する問題