2020/11/19 誤字修正
NCBIの識別子がGCA_で始まるゲノムアセンブリはGenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。また、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリである。こちらも元はユーザーがサブミットしたゲノムアセンブリに由来しているが、NCBI側で短すぎる配列をのぞいたり、オルガネラゲノム配列を追加するなどのキュレーションが行われたゲノムアセンブリになる。
詳しくはこちらを読んでください。
What is the difference between a GenBank (GCA) and RefSeq (GCF) genome assembly?
スモールゲノムを例に違いを見てみる。NCBIのbrowse by Organismからゲノムアセンブリを検索する。
Helicobacter pyloriの完全長ゲノムアセンブリを検索してみた。
検索結果。ここで表示されているのはGCA_のアセンブリIDになる。一番上のGCA_000008525.1をクリックした。
ここでは関係ないが、Helicobacter pyloriのゲノムサイズは1.7Mb程度と非常に小さいのが目を引く。
クリック結果。BiosampleやBioprojectのアクセッションIDが目立つが、画面右端にRefSeq assemblyとGenBank assemblyのNCBI FTPサーバーリンクがある。ここからもゲノムアセンブリやアノテーションのフィーチャーファイル、サマリーファイル等にアクセスできる。それぞれ開いてみる。
RefSeq assembly。/genome/all/GCF/内にあり、ファイル名がGCF_で始まっている。
GenBank assembly。/genome/all/GCA/内にあり、ファイル名がGCA_で始まっている。
ページの下からもRefSeqアセンブリとGenBankアセンブリにリンクしている。
ゲノムによってはどちらのリンクもGCF_で始まるものがあったりする。IDをよく見ること。
では実際に何か違いがあるのだろうか。
seqkit stats -a *fna
ゲノムサイズは同じだった。このゲノムは完全長であり、プラスミドもないため、修正の必要性がない。
次に、GCFとGCAのアノテーションからprotein.faaのサイズを調べた。
seqkit stats *faa
アノテーションされているプロテイン数には38個差があった。アノテーションのプログラムが異なるので、おそらく数以外にも細かな違いが生じていると予測される。
まとめ
たとえスモールゲノムであっても、GenBankゲノムアセンブリとRefSeqゲノムアセンブリやそのアノテーションファイルには結構な違いがある場合がある。論文内でlocus IDなどが書いてあって、その情報を頼りに遺伝子やタンパク質配列情報を取ってきて調べる際には特に注意が必要になる。
参考
井上先生の解説も参考にしました。
関連