macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GTFとGFFフォーマット

2019 10/15追記

 

GTF(General Transfer Format))はgeneのアノテーション専用のフォーマットと定義されている。それに対してGFF(General Feature Format)はtranscriptなどにも使えるよりジェネラルなフォーマットとなっている。この違いのため、例えばUCSC genomeではgeneアノテーションファイルはgtfフォーマットでのみダウンロード可能になっている。

GFFはバージョンにも注意する。GFF3はGFFのバージョン3を意味する。GFF2とGFF3には相違がある。GFF2はGTFと同じである。

 

 

フォーマットの説明;

GTF、GFF3いずれも9のカラムからなるが、1〜8行目はGTFとGFFで同じのため、GTFを例に1-8行目を説明する。例えば以下はUCSCのgenomeデータベースからダウンロードしたバクテリアのGTFファイルの最初の1行を表示している。

chr synePCC6_refSeq start_codon 1 3 2.000000 + . gene_id "slr0611"; transcript_id "slr0611"; 
  1. リファレンス名 (chromosome1など)
  2. アノテーションのソース (pfam,blast2go,interpro,est)
  3. feature (gene,exon,start_codon,cds,mRNA,zinc_finger,conserved_region)
  4. 1-based, inclusive start coordinate (integer > 0)
  5. 1-based, inclusive end coordinate (integer > 0)
  6. スコア
  7. リファレンスに対するgeneの向き (+はforward,-はreverse)
  8. frame (0,1,2 or .)

 

 

Scoreはアノテーションの信頼性を表す数値で、gtfでは無評価の.になるのが普通。

 

 

 

その他、Gffは#をつけることでコメント行を残すことが許されているなどの違いもある。

変換する簡単なスクリプトが公開されている。

SEQanswers - View Single Post - Tab Delimited File Editors? (GFF to GTF)

 

追記

GTFとGFF

 

NGS Surfer's wiki


 関連