macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GTFとGFFフォーマット

GTFはgeneのアノテーション専用のフォーマットと定義されている。それに対してGFF3はtranscriptなどにも使えるよりジェネラルなフォーマットとなっている。この違いのため、例えばUCSC genomeではgeneアノテーションファイルはgtfフォーマットでのみダウンロード可能になっている。

 

フォーマットの説明;

GTF、GFF3いずれも9のカラムからなるが、1〜8行目はGTFとGFFで同じのため、GTFを例に1-8行目を説明する。例えば以下はUCSCのgenomeデータベースからダウンロードしたバクテリアのGTFファイルの最初の1行を表示している。

chr synePCC6_refSeq start_codon 1 3 2.000000 + . gene_id "slr0611"; transcript_id "slr0611"; 
  1. リファレンス名 (chromosome1など)
  2. アノテーションのソース (pfam,blast2go,interpro,est)
  3. feature (gene,exon,start_codon,cds,mRNA,zinc_finger,conserved_region)
  4. 1-based, inclusive start coordinate (integer > 0)
  5. 1-based, inclusive end coordinate (integer > 0)
  6. スコア
  7. リファレンスに対するgeneの向き (+はforward,-はreverse)
  8. frame (0,1,2 or .)

 

 

Scoreはアノテーションの信頼性を表す数値で、gtfでは無評価の.になるのが普通。

 

 

 

その他、Gffは#をつけることでコメント行を残すことが許されているなどの違いもある。

変換する簡単なスクリプトが公開されている。

SEQanswers - View Single Post - Tab Delimited File Editors? (GFF to GTF)

 

 作成途中