ゲノムおよびメタゲノム解析は、生物学的研究のいくつかの分野でますます一般的になってきているが、頻繁に繰り返される特殊な分析は、論文のpublish後にはほとんど利用できないin-houseスクリプトとして報告されている。著者らは、微生物ゲノミクスおよびメタゲノミクスにおけるいくつかの反復的タスクおよび専門のタスクに積極的に維持されるスクリプトセットであるenveomicsコレクションについて説明し、またグラフィカルユーザインタフェースおよびいくつかの事例研究を提示する。(一部略)
enveomicsコレクションは、Artistic License 2.0(https://github.com/lmrodriguezr/enveomics)およびオンライン分析(http://enve-omics.ce.gatech.edu)の条件で自由に利用できる。
Toolsにアクセスする。
http://enve-omics.ce.gatech.edu
10近いツールが利用できるが、ここではANIとAAIの計算ツールに限定して紹介する。
1、ANI: Average Nucleotide Identity calculator
2ゲノム間のANI計算ツール
http://enve-omics.ce.gatech.edu/ani/
比較対象の2ゲノムのFastAファイルを選択する。NCBI accession numberを指定することもできる。windowサイズは1000でMinimum identityは70%だが、変えることもできる。
デモファイルの結果を見てみる。ANIの分布が棒グラフで表示され、ANIの平均値と中央値がプリントされている。
それぞれの領域のアライメント結果もダウンロードできる。
2、AAI: Average Amino acid Identity calculator
http://enve-omics.ce.gatech.edu/aai/
AAIはアミノ酸配列同士の比較。実行するには対象生物のアミノ酸のFastAファイルを準備する必要がある。AAI計算のMinimum identityは20%、Minimum alignmentsは50a.aになっている。
3、All-vs-all ANI/AAI matrix calculator
http://enve-omics.ce.gatech.edu/g-matrix/
ゲノム総当たりのANIまたはAAIの比較。
入力のFastAをzipやgzipなどでフォルダごと圧縮して指定する。
"対応フォーマット: .zip, .tar, .tar.gz, and .tar.bz2. Packages must include only FastA files (up to 50 genomes)"
結果は行列 (matrix)と系統樹で出力される。計算量が多いため、かなり時間がかかる(*1)。テストデータ(link)
引用
The enveomics collection: a toolbox for specialized analyses of microbial genomes and metagenomes
Luis M Rodriguez-R, Konstantinos T Konstantinidis
PeerJ Preprints March 27, 2016
参考記事
*1
知人が総当たりAAIを実行した時は、結果のメールが来るまで2日かかったそうです(10-20程度の生物のタンパク質FastA)。
関連
総当たり
ローカルで計算
web