2016-04-06 8 views
0

のレベルでサブセット:のgrep、私はこのようになり、データフレーム有する因子

my_df [1]
gene_id ENSG00000171680.16します。 transcript_id ENST00000400915.3; gene_type protein_coding; gene_status KNOWN;遺伝子名PLEKHG5; transcript_type protein_coding; transcript_status KNOWN; transcript_name PLEKHG5-002; exon_number 4; exon_id ENSE00003634700.1;レベル2; protein_id ENSP00000383706.3;タグ基本;タグappris_candidate;タグCCDS; ccdsid CCDS41241.1; havana_gene OTTHUMG00000000905.3; havana_transcript OTTHUMT00000002631.1;

my_df [2]
gene_id ENSG00000173662.15; transcript_id ENSG00000173662.15; gene_type protein_coding; gene_status KNOWN;遺伝子名TAS1R1; transcript_type protein_coding; transcript_status KNOWN; transcript_name TAS1R1;レベル1; havana_gene OTTHUMG00000001441.2; 7734レベル:gene_id ENSG00000007923.11; transcript_id ENSG00000007923.11; gene_type protein_coding; gene_status KNOWN; gene_name DNAJC11; transcript_type protein_coding; transcript_status KNOWN;転写物名DNAJC11;レベル2; havana_gene OTTHUMG00000001443.3; [N、] ...

my_df

................

各列に含まれるIのみENSGをサブセットたい

* (14.000行1列)のフルデータフレームを生成する。 grep関数を使用しようとしましたが、残念ながら整数(0)を返します。
予想される出力:
はENSG00000007923.11
をgene_idは、あなたがこの問題を解決するために私を助けてくださいすることができENSG00000173662.15
.............

をgene_id?一致する行番号を返しますグレップ()関数の中で、このパターンを使用し

pattern <- '[E][N][S][G]' 

種類は、私はあなたがようなパターンを使用しなければならないと思います

+5

'str()'の代わりにデータと期待される出力を共有してください。 – mtoto

+0

残念ながら、それは動作しません..出力として全長の行を返します。 – Bfu38

+0

@ mtotoの助言に従って、あなたの質問を明確にするべきです – Sotos

答えて

0

について。

したがって、データフレームをサブセット化することができます。

+0

@ Bfu38 data.frameの各タプルでは、​​最初にgene_id ENSG *が来るか、行のどこにでも出現する必要がありますか?また、ENSG *のない任意の行にgene_idが存在する可能性はありますか? –

関連する問題