macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ターゲットの菌株の種類と豊富さを調べる mixtureS

 

 環境試料中の細菌株を研究することは不可欠である。既存の方法やツールは、既知の菌株や変異株に依存していることが多く、個々のサンプルに対応できない、信頼性が低い、使い勝手が悪いなどの問題がある。そのため、より正確に菌株を同定できる、より使いやすいツールを開発することが重要である。

 著者らは、菌株やその変異についての事前知識がなくても、クローンやメタゲノムサンプルのショットガンリードから細菌株をde novoで同定できるmixtureSと呼ばれる新しいツールを開発した。243のシミュレーションデータセットと195の実験データセットでテストしたところ、mixtureSは確実に菌株、その数、およびその豊富さを同定した。3つのツールと比較して、ほとんどすべてのシミュレーションデータセットと大多数の実験データセットにおいて、mixtureSはより優れた性能を示した。ソースコードとツールmixtureSは、http://www.cs.ucf.edu/〜xiaoman/mixtureS/にある。

 

 

インストール

ubuntu18.04のdocker環境でテストした(macos10.14使用、)。

依存

download

http://www.cs.ucf.edu/~xiaoman/mixtureS/

MixtureS.zipをダウンロードして解凍する。

 

cd MixtureS/
conda env create -f ./mixture.yml
conda activate mixture

python preprocessing.py -h

# python preprocessing.py -h

usage: preprocessing.py [-h] [--sample_name SAMPLE_NAME] [--pair1 PAIR1]

                        [--pair2 PAIR2] [--process PROCESS]

                        [--genome_name GENOME_NAME] [--res_dir RES_DIR]

 

optional arguments:

  -h, --help            show this help message and exit

  --sample_name SAMPLE_NAME

                        Give a unique sample name

  --pair1 PAIR1         Give a unique sample name

  --pair2 PAIR2         Give a unique sample name

  --process PROCESS     Give a unique sample name

  --genome_name GENOME_NAME

                        Input genome name

  --res_dir RES_DIR     result directory

python mixture_model.py -h

# python mixture_model.py -h

usage: mixture_model.py [-h] [--sample_name SAMPLE_NAME]

                        [--genome_len GENOME_LEN] [--genome_name GENOME_NAME]

                        [--genome_file_loc GENOME_FILE_LOC]

                        [--bam_file BAM_FILE] [--res_dir RES_DIR]

 

optional arguments:

  -h, --help            show this help message and exit

  --sample_name SAMPLE_NAME

                        Give a unique sample name

  --genome_len GENOME_LEN

                        Input genome length

  --genome_name GENOME_NAME

                        Input genome name

  --genome_file_loc GENOME_FILE_LOC

                        Input genome file location

  --bam_file BAM_FILE   Input sorted bam file

  --res_dir RES_DIR     result directory

 

 

テストラン

mixtureSのランにはbamファイルが必要。テストデータではpreprocessing.pyを使って作成されたbamが用意されている。

cd MixtureS/example_test_data/
python ../mixture_model.py --sample_name sample_name\
--genome_len 1853160 --genome_name NC_009515.1\
--genome_file_loc GCF_000016525.1_ASM1652v1_genomic.fna\
--bam_file test_sorted.bam --res_dir result

出力

f:id:kazumaxneo:20201114204730p:plain

 

filter_polymorphic_sites - polymorphic sitesを示したファイル

position、A、C、G、Tの順

f:id:kazumaxneo:20201115130754p:plain

 

sample_name_haplotypes

株名が>で表現され、カバレッジ比が表される。この例では0.3。次の行からpolymorphic_sitesが示される。

f:id:kazumaxneo:20201115131057p:plain

第2の株以降も>で始まる。

 

引用

mixtureS: a novel tool for bacterial strain genome reconstruction from reads
Xin Li, Haiyan Hu, Xiaoman Li
Bioinformatics, Published: 17 August 2020