2019 11/3 タイトル修正
これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのような生息地からのメタゲノムデータセットからアセンブリされた種を認識するには不十分である。ここでは、効率的なソフトウェアスイートである「GenomeConstellation」を報告する。これは、多数のメタゲノムアセンブリゲノムを迅速に特徴付けることができる。 Genome Constellationは、k-merの一致に基づいてゲノム間の類似性を推定し、これらの類似性を使用して分類、クラスタリング、そして視覚化する。GenomeConstellationによって形成されたリファレンスゲノムのクラスターは、既知の系統発生的関係に非常に似ていると同時に、予期しない接続を明らかにしている。系統樹に配置できるのはわずか40%である南極の湖のコミュニティから集められた1,693のドラフトゲノムを含むデータセットでは、Genome Constellationは分類群の割り当てを61%に改善した。クラスタリングベースの分析により、新しい細菌門を表す可能性のある6つのクラスターを含む、いくつかの新しい分類群が明らかになった。驚くべきことに、63の新しい巨大ウイルスを発見したが、そのうち3つは従来のマーカーベースのアプローチでは発見できなかった。要約すると、GenomeConstellationは、多数の微生物ゲノムを迅速に分析し、それらの関連性を視覚的に調査するための公平なオプションを提供することを示している。このソフトウェアは、BSDライセンスの下で入手できる:https://bitbucket.org/berkeleylab/jgi-genomeconstellation/。
これまでのゲノムの類似性の可視化は、主にツリーベースの方法に限定されており、これらの方法は多数のゲノムには適しておらず、インタラクティブな探索機能も提供していない。この研究では、次の機能を備えたメタゲノムからアセンブリされたドラフトゲノム分析のためのツールセットであるGenomeConstellationを開発した。1) 高速なゲノム類似性比較のためのビットベクトル実装; 2)ゲノム類似性に基づくクラスタリング; 3)k-nearest-neighbor、またはKNNベースのtaxonomy分類; 4)Webベースのインタラクティブな視覚化ツール。
live demo
コマンドラインツールのインストール
ubuntu18.04LTSでテストした。
ビルド依存
- gcc >=4.8
- boost development libraries with program-options
- libz development libraries
apt update
apt-get install build-essential libboost-dev libboost-program-options-dev libz-dev
git clone https://bitbucket.org/berkeleylab/jgi-genomeconstellation.git
cd jgi-genomeconstellation/src/
make && make install
> ./jgi_gc -h
# ./jgi_gc -h
JGI-GC: Genome Constellation (version 0.21.1; Oct 29 2019 17:38:50)
by Don Kang (ddkang@lbl.gov), Rob Egan, Derek Macklin, Jeff Froula, and Zhong Wang
Allowed options:
-h [ --help ] produce help message
-i [ --query ] arg Query file. Either a single column list file or precalculated
fingerprints file. [Mandatory]
--target arg Target file. Either a single column list file or precalculated
fingerprints file.
--outGC arg GC score output file.
--outFP arg Fingerprints output file.
--minANI arg (=70) Minimum ANI threshold to output [60-100]
--minScore arg (=18.721900000000002) Minimum score
--noANI No ANI transformation. Keep raw GC Score.
--append Append new fingerprints to supplied reference fingerprint file.
--self Indicate query and target are the same. Set to true if target is
missing.
--cache arg (=50) Percentage of system memory allocated for caching [1-90]
-t [ --numThreads ] arg (=0) Number of threads to use (0: use all cores)
--batchIndex arg (=0) Batch index (0: the first)
--batchSize arg (=0) Batch size (0: no batches)
--minFraction arg (=1024) (expert) Minimum hash threshold. 1 kmer out of minFraction bases in
the genome will be added to the fingerprint. It must be power of 2
(1==all)
--numBits arg (=131072) (expert) Number of bits in the fingerprint. It must be a power of 2
and >=2048
-d [ --debug ] Debug output
-v [ --verbose ] Verbose output
webアプリのインストール
dockerイメージとして配布されている。latestタグのイメージを引っ張ってくる。
docker pull lblzhongwang/jgi-genomeconstellation-app:latest
実行方法
ここではポート番号8888番で立ち上げる。
docker run -p 0.0.0.0:8888:80 lblzhongwang/jgi-genomeconstellation-app:latest
ブラウザからhttp://localhost:8888 にアクセスする。
ゲノムのfaファイルを指定する。
結果
登録されている中でこの3つのクラスタに最も近い。
visualizeをクリックしてゲノムのクラスタを視覚化する。徐々に広がっていく。
広がりきった。
このように、Genome Constellation Webアプリはphylumレベルで異なる色のプロットにしてゲノム間の距離を可視化する。この可視化により、既知の種間の隠れた関係が明らかになる。論文の例では、 既知のDehalobacter spはファーミキューテス門に属していいるが、放線菌クラスターへのゲノムへのリンクが示されていることが述べられている。使用されているゲノムは、論文に記載されているNCBI 7k referenceというデータベースになる。これは 、NCBI FTP archiveからの29,195 Eukaryota, Bacteria, and Archaea genomes, 7,254 Virus and 84 Giant Virus genomeのフルセットから、短すぎる配列や長すぎる配列、冗長な配列を除いたものになる(Datasets used in benchmarking GSS~を参照)。
左上に簡単なヘルプがある。
アサインされている色はtaxonomyに対応している。
特定の分類群のプロットだけ非表示にすることが可能。
色も変更可能。
ベストヒットのゲノムをクエリのプロットを探す。
マウスのホイールで拡大。
作成中
引用
A new method for rapid genome classification, clustering, visualization, and novel taxa discovery from metagenome
Zhong Wang, Harrison Ho, Rob Egan, Shijie Yao, Dongwan Kang, Jeff Froula, Volkan Sevim, Frederik Schulz, Jackie E. Shay, Derek Macklin, Kayla McCue, Rachel Orsini, Daniel J. Barich, Christopher J. Sedlacek, Wei Li, Rachael M. Morgan-Kiss, Tanja Woyke, Joan L. Slonczewski
bioRxiv preprint first posted online Oct. 21, 2019