macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ANIを計算する改善されたアルゴリズム orthoani

 

 細菌・古細菌における種の分類は、主にゲノム全体の関連性に基づいて行われており、現代の微生物学の枠組みとなっている。現在、2つの系統間の類似度は、実験的に決定されたDNA-DNAハイブリダイゼーション(DDH)による類似度から、ゲノム配列に基づく類似度へと変化している。平均ヌクレオチド同一性(ANI)は、DDHを模倣した簡単なアルゴリズムである。DDHと同様に、2つのゲノム配列間のANI値は、逆算して比較すると互いに異なる場合がある。63 690組のゲノム配列を比較したところ、逆算したANI値の差が有意に大きく、場合によっては1%を超えることがわかった。この対称性がないという問題を解決するために、両方のゲノム配列を断片化し、ヌクレオチドの同一性を計算する際には直交する断片対のみを考慮するというオルソロジーの概念に対応するために、OrthoANIと名付けられた新しいアルゴリズムが開発された。OrthoANIはANIとの相関性が高く(BLASTnを使用)、前者は後者よりも約0.1%高い値を示した。結論として、OrthoANIは、分類学的な目的で平均ヌクレオチド同一性を計算するためのより強固で高速な手段を提供する。スタンドアロンのソフトウェアツールは、http://www.ezbiocloud.net/sw/oat で自由に利用できる。

 

ezbiocloudは簡単にですが紹介しています。


インストール

condaでpython3.8の仮想環境を作ってテストした(conda create -n orthoANI python=3.8 -y && conda acttivate orthoANI && pip install orthoani)。

Github

#orthoANI (pypi)
pip install orthoani

orthoani -h

$ orthoani -h

usage: orthoani [-h] [-T] [-V] [-j JOBS] -q Q -r R

 

Compute OrthoANI between two sequences in FASTA format.

 

optional arguments:

  -h, --help            show this help message and exit

  -T, --traceback       display a complete traceback on program error

  -V, --version         show program's version number and exit

  -j JOBS, --jobs JOBS  the number of threads to use for BLASTn

  -q Q, --query Q       the path to the first sequence to process

  -r R, --reference R   the path to the second sequence to process

 

Full documentation <https://github.com/althonos/orthoani>

 

 

実行方法

クエリとターゲットのゲノム配列を指定する。どちらがクエリでどちらがターゲットでも結果は変化しない。

orthoani -q sequence1.fa -r sequence2.fa

 

出力例

0.9192424991154942

 

引用
OrthoANI: An improved algorithm and software for calculating average nucleotide identity

Imchang Lee, Yeong Ouk Kim, Sang-Cheol Park, Jongsik Chun

Int J Syst Evol Microbiol. 2016 Feb;66(2):1100-1103