macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムを分類、クラスタリングし、視覚化する JGI-GenomeConstellation

 2019 11/3 タイトル修正

 

 これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのような生息地からのメタゲノムデータセットからアセンブリされた種を認識するには不十分である。ここでは、効率的なソフトウェアスイートである「GenomeConstellation」を報告する。これは、多数のメタゲノムアセンブリゲノムを迅速に特徴付けることができる。 Genome Constellationは、k-merの一致に基づいてゲノム間の類似性を推定し、これらの類似性を使用して分類、クラスタリング、そして視覚化する。GenomeConstellationによって形成されたリファレンスゲノムのクラスターは、既知の系統発生的関係に非常に似ていると同時に、予期しない接続を明らかにしている。系統樹に配置できるのはわずか40%である南極の湖のコミュニティから集められた1,693のドラフトゲノムを含むデータセットでは、Genome Constellationは分類群の割り当てを61%に改善した。クラスタリングベースの分析により、新しい細菌門を表す可能性のある6つのクラスターを含む、いくつかの新しい分類群が明らかになった。驚くべきことに、63の新しい巨大ウイルスを発見したが、そのうち3つは従来のマーカーベースのアプローチでは発見できなかった。要約すると、GenomeConstellationは、多数の微生物ゲノムを迅速に分析し、それらの関連性を視覚的に調査するための公平なオプションを提供することを示している。このソフトウェアは、BSDライセンスの下で入手できる:https://bitbucket.org/berkeleylab/jgi-genomeconstellation/

 これまでのゲノムの類似性の可視化は、主にツリーベースの方法に限定されており、これらの方法は多数のゲノムには適しておらず、インタラクティブな探索機能も提供していない。この研究では、次の機能を備えたメタゲノムからアセンブリされたドラフトゲノム分析のためのツールセットであるGenomeConstellationを開発した。1) 高速なゲノム類似性比較のためのビットベクトル実装; 2)ゲノム類似性に基づくクラスタリング; 3)k-nearest-neighbor、またはKNNベースのtaxonomy分類; 4)Webベースのインタラクティブな視覚化ツール。 

 

live demo

  

コマンドラインツールのインストール

ubuntu18.04LTSでテストした。

ビルド依存

  • gcc >=4.8
  • boost development libraries with program-options
  • libz development libraries
apt update
apt-get install build-essential libboost-dev libboost-program-options-dev libz-dev

git clone https://bitbucket.org/berkeleylab/jgi-genomeconstellation.git
cd jgi-genomeconstellation/src/
make && make install

./jgi_gc -h

# ./jgi_gc -h

 

JGI-GC: Genome Constellation (version 0.21.1; Oct 29 2019 17:38:50)

by Don Kang (ddkang@lbl.gov), Rob Egan, Derek Macklin, Jeff Froula, and Zhong Wang

 

Allowed options:

  -h [ --help ]                        produce help message

  -i [ --query ] arg                   Query file. Either a single column list file or precalculated 

                                       fingerprints file. [Mandatory]

  --target arg                         Target file. Either a single column list file or precalculated 

                                       fingerprints file.

  --outGC arg                          GC score output file.

  --outFP arg                          Fingerprints output file.

  --minANI arg (=70)                   Minimum ANI threshold to output [60-100]

  --minScore arg (=18.721900000000002) Minimum score

  --noANI                              No ANI transformation. Keep raw GC Score.

  --append                             Append new fingerprints to supplied reference fingerprint file.

  --self                               Indicate query and target are the same. Set to true if target is 

                                       missing.

  --cache arg (=50)                    Percentage of system memory allocated for caching [1-90]

  -t [ --numThreads ] arg (=0)         Number of threads to use (0: use all cores)

  --batchIndex arg (=0)                Batch index (0: the first)

  --batchSize arg (=0)                 Batch size (0: no batches)

  --minFraction arg (=1024)            (expert) Minimum hash threshold. 1 kmer out of minFraction bases in 

                                       the genome will be added to the fingerprint. It must be power of 2 

                                       (1==all)

  --numBits arg (=131072)              (expert) Number of bits in the fingerprint. It must be a power of 2 

                                       and >=2048

  -d [ --debug ]                       Debug output

  -v [ --verbose ]                     Verbose output

 

webアプリのインストール

dockerイメージとして配布されている。latestタグのイメージを引っ張ってくる。

docker pull lblzhongwang/jgi-genomeconstellation-app:latest

 

実行方法

ここではポート番号8888番で立ち上げる。

docker run -p 0.0.0.0:8888:80 lblzhongwang/jgi-genomeconstellation-app:latest

ブラウザからhttp://localhost:8888 にアクセスする。

 

ゲノムのfaファイルを指定する。

f:id:kazumaxneo:20191101171959p:plain

結果

f:id:kazumaxneo:20191101172128p:plain

登録されている中でこの3つのクラスタに最も近い。

visualizeをクリックしてゲノムのクラスタを視覚化する。徐々に広がっていく。

f:id:kazumaxneo:20191101172216p:plain

 

 

広がりきった。

f:id:kazumaxneo:20191101172707p:plain

 

このように、Genome Constellation Webアプリはphylumレベルで異なる色のプロットにしてゲノム間の距離を可視化する。この可視化により、既知の種間の隠れた関係が明らかになる。論文の例では、 既知のDehalobacter spはファーミキューテス門に属していいるが、放線菌クラスターへのゲノムへのリンクが示されていることが述べられている。使用されているゲノムは、論文に記載されているNCBI 7k referenceというデータベースになる。これは 、NCBI FTP archiveからの29,195 Eukaryota, Bacteria, and Archaea genomes, 7,254 Virus and 84 Giant Virus genomeのフルセットから、短すぎる配列や長すぎる配列、冗長な配列を除いたものになる(Datasets used in benchmarking GSS~を参照)。

 

左上に簡単なヘルプがある。 

f:id:kazumaxneo:20191101220420p:plain

 

アサインされている色はtaxonomyに対応している。

f:id:kazumaxneo:20191101220353p:plain

 

特定の分類群のプロットだけ非表示にすることが可能。

f:id:kazumaxneo:20191101220659p:plain

色も変更可能。

 

ベストヒットのゲノムをクエリのプロットを探す。

f:id:kazumaxneo:20191101172826p:plain

 

マウスのホイールで拡大。

f:id:kazumaxneo:20191101172921p:plain

 

 

作成中

 

引用

A new method for rapid genome classification, clustering, visualization, and novel taxa discovery from metagenome

Zhong Wang, Harrison Ho, Rob Egan, Shijie Yao, Dongwan Kang, Jeff Froula, Volkan Sevim, Frederik Schulz, Jackie E. Shay, Derek Macklin, Kayla McCue, Rachel Orsini, Daniel J. Barich, Christopher J. Sedlacek, Wei Li, Rachael M. Morgan-Kiss, Tanja Woyke, Joan L. Slonczewski

bioRxiv preprint first posted online Oct. 21, 2019