NCBI Genome のBrowse by Organism機能 - macでインフォマティクス

2020 10/25 追記

　ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリアやアーキアはゲノム決定がしやすくなってきているため、病原性バクテリアを中心に、同じ種の様々な株が登録されるようになっている。しかし登録されるゲノムの多くは種の基準となるタイプストレインではなく表現型が不明の株だったりするため（論文の引用がないものも多い）、その情報が何に利用できるのか、という疑問は多くの研究者にあると思う。それはさておき、ここでは、NCBIの塩基配列データベースに登録された細菌の莫大なゲノムの一覧を調べるのに便利な、NCBI GenomeのBrowse by Organism機能を紹介する。

webサービス

NCBI Genome https://www.ncbi.nlm.nih.gov/genome/に行き、Browse by Organismをクリックする（写真の左上の方のリンク）。

https://www.ncbi.nlm.nih.gov/genome/browse/#!/overview/

登録されているゲノム一覧が表示される。2020年9月17日現在、Eukaryotes 12838、 Prokaryotes 267477、Viruses 41058、Plasmids 23075、Organelles genome 16977となっている。ゲノムアセンブリのレベルはコンティグから完全長まで様々ある。

f:id:kazumaxneo:20200918235319p:plain

興味がある分類群を絞り込んで、どのくらいのゲノム情報が利用できるのか調べてみる。Prokaryotesをクリック。原核生物は現在267477ゲノム利用できる。

f:id:kazumaxneo:20200919002214p:plain

絞り込んでいく。右端のFilterをクリック。

f:id:kazumaxneo:20200919002256p:plain

様々な条件で絞り込める。

f:id:kazumaxneo:20200919002338p:plain

ここではまず一番登録数が多いProteobacteriaを選択。

f:id:kazumaxneo:20200919002507p:plain

次にガンマプロテオバクテリアを選択。

f:id:kazumaxneo:20200919002643p:plain

Assembly levelはCompleteを選択。この時点でまだ7303ゲノムある。

f:id:kazumaxneo:20200919002718p:plain

Hostはhumanを選択。

f:id:kazumaxneo:20200919002823p:plain

他にもRefseq reference sequence、representative sequenceだけ残すフィルタリングや、異常な配列を除外するフィルターがある。

得られたリストはCSVファイルとしてダウンロードできる。

f:id:kazumaxneo:20200919003520p:plain

もちろんキーワード検索だけで絞り込むことも可能。また、フィルター機能とキーワード検索を併用して探すこともできる。

f:id:kazumaxneo:20200919003902p:plain

大腸菌の完全長ゲノムは1065登録されていた。

assembly levelに注意する。⚫️マークが完全長になる。コンティグで、さらに質が非常に低いゲノムもあったりする。

f:id:kazumaxneo:20200919005454p:plain

ダウンロードしたCSVファイルをエクセルで開いた。

f:id:kazumaxneo:20200919004159p:plain

NCBI accessions IDのGCA_は"GenBank genome assembly"を意味する（参考）。

表の右端の列にはRefSeqとGenBankのFTPアクセス情報が記載されており、カスタムリストの全ゲノムをダウンロードするために利用できる。

f:id:kazumaxneo:20200919004741p:plain

引用

Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Nuala A O'Leary, Mathew W Wright, J Rodney Brister, Stacy Ciufo, Diana Haddad, Rich McVeigh, Bhanu Rajput, Barbara Robbertse, Brian Smith-White, Danso Ako-Adjei, Alexander Astashyn, Azat Badretdin, Yiming Bao, Olga Blinkova, Vyacheslav Brover, Vyacheslav Chetvernin, Jinna Choi, Eric Cox, Olga Ermolaeva, Catherine M Farrell, Tamara Goldfarb, Tripti Gupta, Daniel Haft, Eneida Hatcher, Wratko Hlavina, Vinita S Joardar, Vamsi K Kodali, Wenjun Li, Donna Maglott, Patrick Masterson, Kelly M McGarvey, Michael R Murphy, Kathleen O'Neill, Shashikant Pujar, Sanjida H Rangwala, Daniel Rausch, Lillian D Riddick, Conrad Schoch, Andrei Shkeda, Susan S Storz, Hanzhen Sun, Francoise Thibaud-Nissen, Igor Tolstoy, Raymond E Tully, Anjana R Vatsan, Craig Wallin, David Webb, Wendy Wu, Melissa J Landrum, Avi Kimchi, Tatiana Tatusova, Michael DiCuccio, Paul Kitts, Terence D Murphy, Kim D Pruitt

Nucleic Acids Res. 2016 Jan 4;44(D1):D733-45