ConFindrはバクテリア種間およびバクテリア種内のNGSデータの汚染を検出できるパイプライン。かなり良い感受性で実行でき、 2つのサンプルを混ぜ合わせ、それらの間にわずか500のSNP(> 99.9%同一!)がある場合でも同定することができる。これにより、NGSサンプルの厳格な品質管理が可能になる。ConFindrはrMLST遺伝子を調べることで機能する(Jolley et al、2012 pubmed)(rMLST: バクテリアのリボソームタンパク質サブユニット(rps遺伝子)をコードする53の遺伝子)。これらの53個の遺伝子はシングルピーであり、ほぼすべてのバクテリアで保存されていることが知られているため(いくつかの例外があるが、ConFindrはハンドリングできる)、素晴らしいマーカーとなる。それらはシングルコピーであることが知られているので、複数rMLST遺伝子があると汚染されていると考えられる。1サンプル中に複数のアレルがあるかどうか同定するために、以下のワークフローが行われる:
1、属特異的rMLSTデータベースを構築し、種間汚染をチェックするためにMashを使用して各サンプルの属を決定する。
2、厳しい条件でクオリティトリミングを実行し、BBDukを使用してrMLST遺伝子配列を含むリードを取り出す。
3、rMLST遺伝子にアライメントする。
4、アラインメントを見て、コンタミネーティングSNV - 複数のアレルが存在し、汚染を示すことを示す複数の塩基が存在する部位を有するSNVを見つける。
Document
https://lowandrew.github.io/ConFindr/
インストール
mac os10.12の miniconda3-4.0.5環境でテストした。
依存
本体 GIthub
#anaconda環境ならcondaで導入できる
conda install -y -c bioconda confindr
> confindr.py -h
$ confindr.py -h
usage: confindr.py [-h] -i INPUT_DIRECTORY -o OUTPUT_NAME [-d DATABASES]
[-t THREADS] [-k] [-fid FORWARD_ID] [-rid REVERSE_ID] [-v]
[-verbosity {debug,info,warning}]
optional arguments:
-h, --help show this help message and exit
-i INPUT_DIRECTORY, --input_directory INPUT_DIRECTORY
Folder that contains fastq files you want to check for
contamination. Will find any fastq file that contains
.fq or .fastq in the filename.
-o OUTPUT_NAME, --output_name OUTPUT_NAME
Base name for output/temporary directories.
-d DATABASES, --databases DATABASES
Databases folder. If you don't already have databases,
they will be downloaded automatically. You may also
specify the full path to the databases.
-t THREADS, --threads THREADS
Number of threads to run analysis with.
-k, --keep_files By default, intermediate files are deleted. Activate
this flag to keep intermediate files.
-fid FORWARD_ID, --forward_id FORWARD_ID
Identifier for forward reads.
-rid REVERSE_ID, --reverse_id REVERSE_ID
Identifier for reverse reads.
-v, --version show program's version number and exit
-verbosity {debug,info,warning}, --verbosity {debug,info,warning}
Amount of output you want printed to the screen.
Defaults to info, which should be good for most users.
実行方法
1、テストデータダウンロード
wget https://ndownloader.figshare.com/files/9972709 && tar xf 9972709 && rm 9972709
>ls -alh
$ ls -alh example-data/
total 612696
drwxr-xr-x 4 kazuma staff 128B 12 13 2017 .
drwx------+ 160 kazuma staff 5.0K 12 8 21:29 ..
-rw-r--r-- 1 kazuma staff 150M 12 13 2017 example_R1.fastq.gz
-rw-r--r-- 1 kazuma staff 150M 12 13 2017 example_R2.fastq.gz
ペアエンドfastqだけ用意すればよい。
2、confindr実行
confindr.py -i example-data -o example-out
出力
$ ls -alth example-out/
total 56
drwx------+ 470 user staff 16K 12 15 16:35 ..
drwxr-xr-x 6 user staff 204B 12 15 11:57 .
-rw-r--r--@ 1 user staff 144B 12 15 11:57 confindr_report.csv
-rw-r--r--@ 1 user staff 755B 12 15 11:57 example_contamination.csv
-rw-r--r-- 1 user staff 13K 12 15 11:57 confindr_log.txt
-rw-r--r--@ 1 user staff 731B 12 15 11:57 example_rmlst.csv
confindr_report.csv
example_contamination.csv
example_rmlst.csv
バージョン0.4.4からrMLSTの代わりにcgMLST(core genome MLST)を使うオプションも実装されている。詳細はGithubで確認してください。
引用
GitHub - lowandrew/ConFindr: Intra-species bacterial contamination detection