2020 10/25 追記
ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリアやアーキアはゲノム決定がしやすくなってきているため、病原性バクテリアを中心に、同じ種の様々な株が登録されるようになっている。しかし登録されるゲノムの多くは種の基準となるタイプストレインではなく表現型が不明の株だったりするため(論文の引用がないものも多い)、その情報が何に利用できるのか、という疑問は多くの研究者にあると思う。それはさておき、ここでは、NCBIの塩基配列データベースに登録された細菌の莫大なゲノムの一覧を調べるのに便利な、NCBI GenomeのBrowse by Organism機能を紹介する。
NCBI Genome https://www.ncbi.nlm.nih.gov/genome/に行き、Browse by Organismをクリックする(写真の左上の方のリンク)。
https://www.ncbi.nlm.nih.gov/genome/browse/#!/overview/
登録されているゲノム一覧が表示される。2020年9月17日現在、Eukaryotes 12838、 Prokaryotes 267477、Viruses 41058、Plasmids 23075、Organelles genome 16977となっている。ゲノムアセンブリのレベルはコンティグから完全長まで様々ある。
興味がある分類群を絞り込んで、どのくらいのゲノム情報が利用できるのか調べてみる。Prokaryotesをクリック。原核生物は現在267477ゲノム利用できる。
絞り込んでいく。右端のFilterをクリック。
様々な条件で絞り込める。
ここではまず一番登録数が多いProteobacteriaを選択。
次にガンマプロテオバクテリアを選択。
Assembly levelはCompleteを選択。この時点でまだ7303ゲノムある。
Hostはhumanを選択。
他にもRefseq reference sequence、representative sequenceだけ残すフィルタリングや、異常な配列を除外するフィルターがある。
得られたリストはCSVファイルとしてダウンロードできる。
もちろんキーワード検索だけで絞り込むことも可能。また、フィルター機能とキーワード検索を併用して探すこともできる。
大腸菌の完全長ゲノムは1065登録されていた。
assembly levelに注意する。⚫️マークが完全長になる。コンティグで、さらに質が非常に低いゲノムもあったりする。
ダウンロードしたCSVファイルをエクセルで開いた。
NCBI accessions IDのGCA_は"GenBank genome assembly"を意味する(参考)。
表の右端の列にはRefSeqとGenBankのFTPアクセス情報が記載されており、カスタムリストの全ゲノムをダウンロードするために利用できる。
引用
Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation
Nuala A O'Leary, Mathew W Wright, J Rodney Brister, Stacy Ciufo, Diana Haddad, Rich McVeigh, Bhanu Rajput, Barbara Robbertse, Brian Smith-White, Danso Ako-Adjei, Alexander Astashyn, Azat Badretdin, Yiming Bao, Olga Blinkova, Vyacheslav Brover, Vyacheslav Chetvernin, Jinna Choi, Eric Cox, Olga Ermolaeva, Catherine M Farrell, Tamara Goldfarb, Tripti Gupta, Daniel Haft, Eneida Hatcher, Wratko Hlavina, Vinita S Joardar, Vamsi K Kodali, Wenjun Li, Donna Maglott, Patrick Masterson, Kelly M McGarvey, Michael R Murphy, Kathleen O'Neill, Shashikant Pujar, Sanjida H Rangwala, Daniel Rausch, Lillian D Riddick, Conrad Schoch, Andrei Shkeda, Susan S Storz, Hanzhen Sun, Francoise Thibaud-Nissen, Igor Tolstoy, Raymond E Tully, Anjana R Vatsan, Craig Wallin, David Webb, Wendy Wu, Melissa J Landrum, Avi Kimchi, Tatiana Tatusova, Michael DiCuccio, Paul Kitts, Terence D Murphy, Kim D Pruitt
Nucleic Acids Res. 2016 Jan 4;44(D1):D733-45
関連