macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ショートリードからの株レベルメタゲノムアセンブリを行う StrainXpress

 

 次世代シーケンサーを用いたメタゲノム解析により、長時間の培養を必要とせず、特徴的な生息環境にある微生物を同定することが可能になった。重要なことは、薬剤耐性、病原性、環境との相互作用など、臨床に関連する現象が種内で既に変化している可能性があることである。そのため、シーケンシングリードから個々のゲノムを種のレベルだけでなく、株のレベルでも再構築することが現在の大きな課題となっている。しかし、ある種の株は微量のバリアントしか違わないため、それらを区別することは困難である。近年、かなりの進歩が見られるものの、関連するアプローチはこれまで断片的なものにとどまっている。本発表では、次世代シーケンサーのリードデータからstrain aware metagenome assemblyのための包括的なソリューションであるStrainXpressを紹介する。StrainXpressは、最大1000系統以上のメタゲノムから系統特異的なゲノムを再構成することができ、また、被覆度の低い系統にもうまく対処できることを実験的に証明した。その結果、全データセットで平均26.75%(第一四分位:18.51%、中央値:26.60%、第三四分位:35.05%)の菌株特異的な配列が再構成され、現在の最先端アプローチのそれを上回った。

 

インストール

ubuntu18にcondaを使って導入した。

mamba create -n strainxpress
conda activate strainxpress
mamba install -c bioconda python=3.6 scipy pandas minimap2 -y

git clone https://github.com/kangxiongbin/StrainXpress.git
cd StrainXpress
sh install.sh

python scripts/strainxpress.py -h

usage: strainxpress.py [-h] [-fq FQ] [-t THREADS] [-size SIZE]

                       [-insert_size INSERT_SIZE]

                       [-average_read_len AVERAGE_READ_LEN]

                       [-split_nu SPLIT_NU] [-fast]

 

%prog -fq <input fq file> This program is used to cluster the reads that stem

from identical species. # need to install panda

 

optional arguments:

  -h, --help            show this help message and exit

  -fq FQ                The input fq file.

  -t THREADS            The number of threads when run strainxpress. Default

                        is 10.

  -size SIZE            The maximum size of the cluster. Default is 15000.

  -insert_size INSERT_SIZE

                        The length of insert size of reads. Default is 450.

  -average_read_len AVERAGE_READ_LEN

                        The average length of reads. Default is 250.

  -split_nu SPLIT_NU    Split the fq file into several files. Default is 8.

  -fast                 When fq file is big or have some high coverage

                        bacteria, suggest use the fast model. Defualt is don't

                        use fast.

 

 

テストラン

cd example/
python ../scripts/strainxpress.py -fq all_reads.fq

出力

 

引用
StrainXpress: strain aware metagenome assembly from short reads

Xiongbin Kang, Xiao Luo , Alexander Schönhuth

Nucleic Acids Res. 2022 Jul 1;gkac543