macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

大規模なウイルスゲノムデータのマルチプルシーケンスアラインメントを行う ViralMSA

 

 分子疫学において、感染クラスターの同定は、典型的にはウイルスゲノム配列データのアラインメントを必要とする。しかし、既存の複数配列のアラインメント手法では、配列数に対してスケールが小さく、その結果、ウイルスの感染クラスターを特定するためには、ウイルスゲノム配列データのアラインメントが必要となる。
 ViralMSAは、超大規模なウイルスゲノムデータセットの多重配列アラインメントを可能にするリードマッパーのアルゴリズム技術を活用した、ユーザーフレンドリーなリファレンスガイド型多重配列アラインメントツールである。配列数に応じてリニアにスケールし、数万のウイルスゲノムを数秒でアラインメントすることができる。ただし、ViralMSAで作成されたアラインメントは、リファレンスゲノムに対する挿入を省略している。
 ViralMSAはオープンソースのソフトウェアプロジェクトとしてhttps://github.com/niemasd/ViralMSA で自由に利用できる。

 

 

インストール

python3.7環境で実行スクリプトをダウンロードしてテストした。

依存

ViralMSA is written in Python 3 and depends on BioPython. ViralMSA also requires at least one of the following tools to perform the alignment:

  • Minimap2 (used by default; strongly recommended)
  • bowtie2
  • HISAT2
  • STAR
#biopython
conda install -c anaconda biopython -y

#マッパーはいずれもcondaで導入可能
conda install -c bioconda -y minimap2

 Github

wget "https://raw.githubusercontent.com/niemasd/ViralMSA/master/ViralMSA.py"
chmod a+x ViralMSA.py

#パスの通ったディレクトリに移動
mv ViralMSA.py /usr/local/bin/ViralMSA.py

 

実行方法

クエリの配列とマッピングするリファレンスの配列、NCBIの配列をダウンロードするためのメールアドレスを指定する。リファレンスの配列はGenBank accession numberにも対応している。

ViralMSA.py -e email@address.com -s sequences.fas -o output -r SARS-CoV-2 -t 12

#accesion IDでも認識する(SARS-CoV-2)。
ViralMSA.py -e email@address.com -s sequences.fas -o output -r NC_045512 -t 12
  • -s    Input Sequences (FASTA format) (default: None)
  • -r     Reference (default: None)
  • -e    Email Address (for Entrez) (default: None)
  • -o    Output Directory (default: None)
  • -a    ALIGNER Aligner (default: Minimap2)
  • -t     Number of Threads (default: max) 

 出力ディレクトリにアラインメント結果のsamと多重整列のalnファイルが出力される。

 

引用

ViralMSA: Massively scalable reference-guided multiple sequence alignment of viral genomes
Niema Moshiri
Bioinformatics, Published: 19 August 2020

 

関連