次世代シーケンサーを用いたメタゲノム解析により、長時間の培養を必要とせず、特徴的な生息環境にある微生物を同定することが可能になった。重要なことは、薬剤耐性、病原性、環境との相互作用など、臨床に関連する現象が種内で既に変化している可能性があることである。そのため、シーケンシングリードから個々のゲノムを種のレベルだけでなく、株のレベルでも再構築することが現在の大きな課題となっている。しかし、ある種の株は微量のバリアントしか違わないため、それらを区別することは困難である。近年、かなりの進歩が見られるものの、関連するアプローチはこれまで断片的なものにとどまっている。本発表では、次世代シーケンサーのリードデータからstrain aware metagenome assemblyのための包括的なソリューションであるStrainXpressを紹介する。StrainXpressは、最大1000系統以上のメタゲノムから系統特異的なゲノムを再構成することができ、また、被覆度の低い系統にもうまく対処できることを実験的に証明した。その結果、全データセットで平均26.75%(第一四分位:18.51%、中央値:26.60%、第三四分位:35.05%)の菌株特異的な配列が再構成され、現在の最先端アプローチのそれを上回った。
インストール
ubuntu18にcondaを使って導入した。
mamba create -n strainxpress
conda activate strainxpress
mamba install -c bioconda python=3.6 scipy pandas minimap2 -y
git clone https://github.com/kangxiongbin/StrainXpress.git
cd StrainXpress
sh install.sh
> python scripts/strainxpress.py -h
usage: strainxpress.py [-h] [-fq FQ] [-t THREADS] [-size SIZE]
[-insert_size INSERT_SIZE]
[-average_read_len AVERAGE_READ_LEN]
[-split_nu SPLIT_NU] [-fast]
%prog -fq <input fq file> This program is used to cluster the reads that stem
from identical species. # need to install panda
optional arguments:
-h, --help show this help message and exit
-fq FQ The input fq file.
-t THREADS The number of threads when run strainxpress. Default
is 10.
-size SIZE The maximum size of the cluster. Default is 15000.
-insert_size INSERT_SIZE
The length of insert size of reads. Default is 450.
-average_read_len AVERAGE_READ_LEN
The average length of reads. Default is 250.
-split_nu SPLIT_NU Split the fq file into several files. Default is 8.
-fast When fq file is big or have some high coverage
bacteria, suggest use the fast model. Defualt is don't
use fast.
テストラン
cd example/
python ../scripts/strainxpress.py -fq all_reads.fq
出力
引用
StrainXpress: strain aware metagenome assembly from short reads
Xiongbin Kang, Xiao Luo , Alexander Schönhuth
Nucleic Acids Res. 2022 Jul 1;gkac543