私は1212 .csv
のファイルにフェッチされた分類名とその頻度(各名前がフェッチされた回数)を含んでいます。私はマスターファイル.txt
を作成して、少なくとも12個のファイルにわたって1回以上見つかったすべての固有の分類群をリストアップしました。 csv
形式の連結テーブルを作成する必要があります。ここで、行のヘッダーは各ファイルの名前であり、列のヘッダーはすべてマスター.txt
ファイルにリストされている固有の分類です。各.csv
入力ファイルには、各分類群の横にある頻度で表を作成する必要があります。マスターリストには12のファイルで可能なすべての分類が含まれていますが、すべての分類にすべての分類が含まれているわけではありません。分類群が見つからないときは、「0」を配置する必要があります。複数のCSVファイルに含まれる分類群の頻度からテーブルを作成
.csv
入力:
$cat file_1
1,Salmo salar
12,Solanum pennellii
18,Staphylococcus xylosus
...
$cat file_2
1,Salmo salar
14,Staphylococcus xylosus
123,Strongyloides stercoralis
...
$cat file_3
123,Solanum pennellii
11,Staphylococcus xylosus
41,Strongyloides stercoralis
...
.txt
マスターリスト:
$cat master
Salmo salar
Solanum pennellii
Staphylococcus xylosus
Strongyloides stercoralis
...
.csv
出力(Iは必要なもの):
Sample,Salmo salar,Solanum pennellii,Staphylococcus xylosus,Strongyloides stercoralis
File_1,1,12,18,0
File_2,1,0,14,123
File_3,0,123,11,41
は、私が以前にせずに、小さなPythonスクリプトを作ってみましたマスターリストとを使用して頻度の代わりにtaxaという名前の繰り返しを含む3210入力ファイル。私は各ファイルの分類が見当たらない表を手に入れることができなかったので、マスターリストを作成して入力ファイルを折りたたむことにしました。私は非常にPythonで新しいので、任意の助けに感謝されます。
私の代わりに周波数を有するの(マスターリストを使用したり、CSV入力ファイルを崩すことなく、スクリプトを作ってみました、ファイルは同じ名前が何度も繰り返されています)、私が望んだとおりに動作しませんでした。 –