fasta

0熱

1答えて

いくつかのゲノムFASTAファイルの最初の行の情報を使用して名前を変更したいと思いますが、わかりません。ここで 2つのファイルの例です： GCA_000007365.1_ASM736v1_genomic.fna： >AE013218.1 Buchnera aphidicola str. Sg (Schizaphis graminum), complete genome ATGTCAAAGTCGT

0熱

1答えて

複数のシーケンスをフォルダ内のfastqからfastaに変換する

フォルダに含まれるすべてのfastqファイルをfasta形式に変換したいが、各ファイルは元の名前を保持するが、fasta拡張子では次のコードをperlで作成し、しかし、それは各ファイルの最後のシーケンスを抽出するだけです!!! #!/usr/bin/perl use strict; use warnings; use Getopt::Long; my ($dir, $files, $f

0熱

1答えて

Pythonのfastaヘッダーの対応するGI番号からNCBIのアクセッション番号を取得

GenBankでGI番号を段階的に削除していて、次の形式でヘッダーを編集した場所にいくつかのfastaファイルが保存されています。 >SomeText_ginumber 次のように私はNCBIおよび出力から各GIのためのヘッダーを持つファイルを、対応するアクセッション番号を取得することができることを、理想的にはPythonで、私もこれで始めるには考えてきませんが、方法があります： >SomeT

3熱

2答えて

文字列変数をファイルの代わりにBLAST検索に渡すことはできますか？

私はpythonスクリプトを書いており、可能であればFASTA形式のファイルではなく、文字列変数としてblastnに問い合わせのシーケンス情報を渡したいと思っています。 BiopythonのSeqIOを使用して、いくつかの転写物名をキーとして、そのシーケンスを関連値として保存しました。だから、だから、辞書は今、私はブラストクエリおよび対象に、辞書内の配列情報に解析するこの {'var_F': S

0熱

3答えて

大きなファイルを読み書きする

私はC++で非常に新しいです！それで、あなたがそれを考慮し、可能な限り簡単に答えることができたら、本当に感謝しています。私は> 40000シーケンス（500Mb近く）でfastaファイルを解析し、IDとシーケンス長を新しいファイルに書き込む必要があります。私はそれがC++で非常に遅くなっていることを発見しました。この目的のために、Pythonははるかに高速に動作します。しかし、私はC++でどのよう

-1熱

1答えて

大文字と小文字の区別がないためにsedにオプションを追加し、FASTAファイルの文字列を置き換えます。

Fastaファイルで検索してパターンを変更するファイルを作成します。 tail -n +2 scaffold_names_2.txt | while read assemb gcenter refseq genbank ncbi; do echo -ne "sed 's/<$gcenter>/$genbank/g' | " >>script.sh; done 私のファイルを見て、このような：

1熱

1答えて

Biopythonを使用してfastaファイルのDNA配列を変更する

私はいくつかのDNA配列を持つfastaフォーマットのファイルを持っています。私は、同じシーケンスIDを維持しながら、別の小さいシーケンスの各シーケンスの内容を変更したい。新しいシーケンスがリストにあります。 with open("outfile.fa", "w") as f: for seq_record in SeqIO.parse("ma-all-mito.fa", "fasta

-1熱

1答えて

fastaファイルを書きますが、最終行のみが作成されました

これはdna配列をタンパク質配列に翻訳するために書いたコードです。関数は機能しますが、タンパク質配列を出力しようとすると、最後の配列だけがファイルに表示されます。 def translate(dna_seq): #create function "this function translates a dna sequence into a single letter code amino

0熱

1答えて

fasta配列内のヌクレオチド部分配列を見つける

ambiguous symbols (IUPAC)のdna配列を含むFASTAファイルを入力して関数を書く必要があります。 FASTAファイルの名前とあいまいなDNA文字列が与えられているので、与えられたシーケンスがサブシーケンスである可能性のあるシーケンス（'>'ヘッダ）の識別子を書きたいと思います。私は可能なすべてのシーケンスを生成せずにこれを実装したいと思います。サブシーケンスはFASTAフ

1熱

1答えて

複数のFastaアラインメントファイルの注文方法

これは簡単なことですが、私は非常に限られたバイオインフォマティクス経験を持っています。私は同じ12種の異なる遺伝子のアライメントを含む多くの-100,000-FASTAファイルを持っています。各ファイルには、次のようなものになります。同じように命じている >dmel ACTTTTGATACAATTAAC >dsim AATCCCAGACAAATTAAG >dsec AGTTTTGCAA