macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NCBIのGenBankゲノムアセンブリ (GCA) とRefSeqゲノムアセンブリ(GCF)

2020/11/19 誤字修正

 

NCBIの識別子がGCA_で始まるゲノムアセンブリGenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。また、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリである。こちらも元はユーザーがサブミットしたゲノムアセンブリに由来しているが、NCBI側で短すぎる配列をのぞいたり、オルガネラゲノム配列を追加するなどのキュレーションが行われたゲノムアセンブリになる。

 

詳しくはこちらを読んでください。

What is the difference between a GenBank (GCA) and RefSeq (GCF) genome assembly?

 

スモールゲノムを例に違いを見てみる。NCBIbrowse by Organismからゲノムアセンブリを検索する。

f:id:kazumaxneo:20201118223248p:plain



Helicobacter pyloriの完全長ゲノムアセンブリを検索してみた。

f:id:kazumaxneo:20201118224055p:plain

 

検索結果。ここで表示されているのはGCA_のアセンブリIDになる。一番上のGCA_000008525.1をクリックした。

f:id:kazumaxneo:20201118224126p:plain

ここでは関係ないが、Helicobacter pyloriのゲノムサイズは1.7Mb程度と非常に小さいのが目を引く。

 

クリック結果。BiosampleやBioprojectのアクセッションIDが目立つが、画面右端にRefSeq assemblyとGenBank assemblyのNCBI FTPサーバーリンクがある。ここからもゲノムアセンブリアノテーションのフィーチャーファイル、サマリーファイル等にアクセスできる。それぞれ開いてみる。

f:id:kazumaxneo:20201118230033p:plain

 

RefSeq assembly。/genome/all/GCF/内にあり、ファイル名がGCF_で始まっている。

f:id:kazumaxneo:20201118230137p:plain

GenBank assembly。/genome/all/GCA/内にあり、ファイル名がGCA_で始まっている。

f:id:kazumaxneo:20201118230114p:plain

 

ページの下からもRefSeqアセンブリGenBankアセンブリにリンクしている。

f:id:kazumaxneo:20201118231707p:plain

ゲノムによってはどちらのリンクもGCF_で始まるものがあったりする。IDをよく見ること。

 

では実際に何か違いがあるのだろうか。

GCFとGCAのゲノムアセンブリのサイズを調べた。

seqkit stats -a *fna

f:id:kazumaxneo:20201118232422p:plain

 ゲノムサイズは同じだった。このゲノムは完全長であり、プラスミドもないため、修正の必要性がない。

 

次に、GCFとGCAアノテーションからprotein.faaのサイズを調べた。

seqkit stats *faa

f:id:kazumaxneo:20201118232626p:plain

アノテーションされているプロテイン数には38個差があった。アノテーションのプログラムが異なるので、おそらく数以外にも細かな違いが生じていると予測される。

 

まとめ
たとえスモールゲノムであっても、GenBankゲノムアセンブリとRefSeqゲノムアセンブリやそのアノテーションファイルには結構な違いがある場合がある。論文内でlocus IDなどが書いてあって、その情報を頼りに遺伝子やタンパク質配列情報を取ってきて調べる際には特に注意が必要になる。

 

 

参考

井上先生の解説も参考にしました。


関連