macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Kostabl labのANIやAAIを計算するwebツール (enveomicsコレクションの一部)

 ゲノムおよびメタゲノム解析は、生物学的研究のいくつかの分野でますます一般的になってきているが、頻繁に繰り返される特殊な分析は、論文のpublish後にはほとんど利用できないin-houseスクリプトとして報告されている。著者らは、微生物ゲノミクスおよびメタゲノミクスにおけるいくつかの反復的タスクおよび専門のタスクに積極的に維持されるスクリプトセットであるenveomicsコレクションについて説明し、またグラフィカルユーザインタフェースおよびいくつかの事例研究を提示する。(一部略)

enveomicsコレクションは、Artistic License 2.0(https://github.com/lmrodriguezr/enveomics)およびオンライン分析(http://enve-omics.ce.gatech.edu)の条件で自由に利用できる。

 

Toolsにアクセスする。

http://enve-omics.ce.gatech.edu

10近いツールが利用できるが、ここではANIとAAIの計算ツールに限定して紹介する。

 

1、ANI: Average Nucleotide Identity calculator

2ゲノム間のANI計算ツール

http://enve-omics.ce.gatech.edu/ani/

f:id:kazumaxneo:20180921163516p:plain

比較対象の2ゲノムのFastAファイルを選択する。NCBI accession numberを指定することもできる。windowサイズは1000でMinimum identityは70%だが、変えることもできる。

f:id:kazumaxneo:20180921163748p:plain

 

デモファイルの結果を見てみる。ANIの分布が棒グラフで表示され、ANIの平均値と中央値がプリントされている。

f:id:kazumaxneo:20180921164014p:plain

それぞれの領域のアライメント結果もダウンロードできる。

f:id:kazumaxneo:20180921164007p:plain

 

 

2、AAI: Average Amino acid Identity calculator

http://enve-omics.ce.gatech.edu/aai/

f:id:kazumaxneo:20180921163542p:plain

AAIはアミノ酸配列同士の比較。実行するには対象生物のアミノ酸FastAファイルを準備する必要がある。AAI計算のMinimum identityは20%、Minimum alignmentsは50a.aになっている。

 

 

3、All-vs-all ANI/AAI matrix calculator

http://enve-omics.ce.gatech.edu/g-matrix/

ゲノム総当たりのANIまたはAAIの比較。

f:id:kazumaxneo:20180921163607p:plain

入力のFastAをzipやgzipなどでフォルダごと圧縮して指定する。

"対応フォーマット: .zip, .tar, .tar.gz, and .tar.bz2. Packages must include only FastA files (up to 50 genomes)"

 

結果は行列 (matrix)と系統樹で出力される。計算量が多いため、かなり時間がかかる(*1)。テストデータ(link

f:id:kazumaxneo:20180921201148p:plain

f:id:kazumaxneo:20180921201206p:plain

 

引用

The enveomics collection: a toolbox for specialized analyses of microbial genomes and metagenomes

Luis M Rodriguez-R​, Konstantinos T Konstantinidis
PeerJ Preprints March 27, 2016

 

参考記事

http://enve-omics.gatech.edu/sites/default/files/2014-Rodriguez_R-Konstantinidis_Microbe_Magazine.pdf

 

*1

知人が総当たりAAIを実行した時は、結果のメールが来るまで2日かかったそうです(10-20程度の生物のタンパク質FastA)。

 

関連