2023/04 ツイート追記
分子疫学において、感染クラスターの同定は、典型的にはウイルスゲノム配列データのアラインメントを必要とする。しかし、既存の複数配列のアラインメント手法では、配列数に対してスケールが小さく、その結果、ウイルスの感染クラスターを特定するためには、ウイルスゲノム配列データのアラインメントが必要となる。
ViralMSAは、超大規模なウイルスゲノムデータセットの多重配列アラインメントを可能にするリードマッパーのアルゴリズム技術を活用した、ユーザーフレンドリーなリファレンスガイド型多重配列アラインメントツールである。配列数に応じてリニアにスケールし、数万のウイルスゲノムを数秒でアラインメントすることができる。ただし、ViralMSAで作成されたアラインメントは、リファレンスゲノムに対する挿入を省略している。
ViralMSAはオープンソースのソフトウェアプロジェクトとしてhttps://github.com/niemasd/ViralMSA で自由に利用できる。
2023/04
ViralMSA now has a web app, created by one of my amazing undergrads! It's a complete WebAssembly port of ViralMSA, meaning it runs client-side in your own web browser (so none of your data get sent anywhere; all happens locally)! Check it out! https://t.co/nKgiBQxkiC
— Niema Moshiri (@niemasd) 2023年4月3日
The ViralMSA manuscript is out!
— Niema Moshiri (@niemasd) 2020年8月20日
TL;DR: Reference-guided multiple sequence of viral genomes (e.g. #SARSCoV2) using read mappers like Minimap2. ~80,000 viral genomes in ~10 minutes, and similar accuracy as MAFFT (potentially higher accuracy for phylogenetic inference) https://t.co/0JCWg5XMJ0
インストール
python3.7環境で実行スクリプトをダウンロードしてテストした。
依存
ViralMSA is written in Python 3 and depends on BioPython. ViralMSA also requires at least one of the following tools to perform the alignment:
- Minimap2 (used by default; strongly recommended)
- bowtie2
- HISAT2
- STAR
#biopython
conda install -c anaconda biopython -y
#マッパーはいずれもcondaで導入可能
conda install -c bioconda -y minimap2
wget "https://raw.githubusercontent.com/niemasd/ViralMSA/master/ViralMSA.py"
chmod a+x ViralMSA.py
#パスの通ったディレクトリに移動
mv ViralMSA.py /usr/local/bin/ViralMSA.py
実行方法
クエリの配列とマッピングするリファレンスの配列、NCBIの配列をダウンロードするためのメールアドレスを指定する。リファレンスの配列はGenBank accession numberにも対応している。
ViralMSA.py -e email@address.com -s sequences.fas -o output -r SARS-CoV-2 -t 12
#accesion IDでも認識する(SARS-CoV-2)。
ViralMSA.py -e email@address.com -s sequences.fas -o output -r NC_045512 -t 12
- -s Input Sequences (FASTA format) (default: None)
- -r Reference (default: None)
- -e Email Address (for Entrez) (default: None)
- -o Output Directory (default: None)
- -a ALIGNER Aligner (default: Minimap2)
- -t Number of Threads (default: max)
出力ディレクトリにアラインメント結果のsamと多重整列のalnファイルが出力される。
引用
ViralMSA: Massively scalable reference-guided multiple sequence alignment of viral genomes
Niema Moshiri
Bioinformatics, Published: 19 August 2020
関連