環境試料中の細菌株を研究することは不可欠である。既存の方法やツールは、既知の菌株や変異株に依存していることが多く、個々のサンプルに対応できない、信頼性が低い、使い勝手が悪いなどの問題がある。そのため、より正確に菌株を同定できる、より使いやすいツールを開発することが重要である。
著者らは、菌株やその変異についての事前知識がなくても、クローンやメタゲノムサンプルのショットガンリードから細菌株をde novoで同定できるmixtureSと呼ばれる新しいツールを開発した。243のシミュレーションデータセットと195の実験データセットでテストしたところ、mixtureSは確実に菌株、その数、およびその豊富さを同定した。3つのツールと比較して、ほとんどすべてのシミュレーションデータセットと大多数の実験データセットにおいて、mixtureSはより優れた性能を示した。ソースコードとツールmixtureSは、http://www.cs.ucf.edu/〜xiaoman/mixtureS/にある。
インストール
ubuntu18.04のdocker環境でテストした(macos10.14使用、)。
依存
- python=3.7.6
- R
- pysam=0.15.3
download
http://www.cs.ucf.edu/~xiaoman/mixtureS/
MixtureS.zipをダウンロードして解凍する。
cd MixtureS/
conda env create -f ./mixture.yml
conda activate mixture
> python preprocessing.py -h
# python preprocessing.py -h
usage: preprocessing.py [-h] [--sample_name SAMPLE_NAME] [--pair1 PAIR1]
[--pair2 PAIR2] [--process PROCESS]
[--genome_name GENOME_NAME] [--res_dir RES_DIR]
optional arguments:
-h, --help show this help message and exit
--sample_name SAMPLE_NAME
Give a unique sample name
--pair1 PAIR1 Give a unique sample name
--pair2 PAIR2 Give a unique sample name
--process PROCESS Give a unique sample name
--genome_name GENOME_NAME
Input genome name
--res_dir RES_DIR result directory
> python mixture_model.py -h
# python mixture_model.py -h
usage: mixture_model.py [-h] [--sample_name SAMPLE_NAME]
[--genome_len GENOME_LEN] [--genome_name GENOME_NAME]
[--genome_file_loc GENOME_FILE_LOC]
[--bam_file BAM_FILE] [--res_dir RES_DIR]
optional arguments:
-h, --help show this help message and exit
--sample_name SAMPLE_NAME
Give a unique sample name
--genome_len GENOME_LEN
Input genome length
--genome_name GENOME_NAME
Input genome name
--genome_file_loc GENOME_FILE_LOC
Input genome file location
--bam_file BAM_FILE Input sorted bam file
--res_dir RES_DIR result directory
テストラン
mixtureSのランにはbamファイルが必要。テストデータではpreprocessing.pyを使って作成されたbamが用意されている。
cd MixtureS/example_test_data/
python ../mixture_model.py --sample_name sample_name\
--genome_len 1853160 --genome_name NC_009515.1\
--genome_file_loc GCF_000016525.1_ASM1652v1_genomic.fna\
--bam_file test_sorted.bam --res_dir result
出力
filter_polymorphic_sites - polymorphic sitesを示したファイル
position、A、C、G、Tの順
sample_name_haplotypes
株名が>で表現され、カバレッジ比が表される。この例では0.3。次の行からpolymorphic_sitesが示される。
第2の株以降も>で始まる。
引用
mixtureS: a novel tool for bacterial strain genome reconstruction from reads
Xin Li, Haiyan Hu, Xiaoman Li
Bioinformatics, Published: 17 August 2020