特定のアダプターフラグメントを使用してDNA配列決定から生成されたストリングのセットSがあります。これは、S内のすべての文字列が、アダプター配列の接頭辞にほぼ一致する接尾辞を含むことを意味します。どのようにして、集合SのみがSを生成するために使用される最も可能性の高いアダプター系列を推定することができるか?フラグメントのセットからアダプター配列を推定する
セットSは非常に大きく、それぞれが50文字の長さの約100万のフラグメントです。私はセットS上の一般的なサフィックスツリーを構築することが大いにこの問題を助けることを知っているが、私は最も可能性の高いアダプターシーケンスを見つけるために使用する方法が不明です。
文字列は、配列決定の誤りのはどのようなものを含めることができますか?特に、置換エラーだけが存在するか(またはほとんど)、挿入や削除が可能ですか? –
エラーは置換エラーだけに限られます。 – Wims
キーワードは 'blast de novo assembly'ですGIYF – wildplasser