macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアシーケンシングデータの種間、種内汚染を検出する ConFindr

 

 ConFindrはバクテリア種間およびバクテリア種内のNGSデータの汚染を検出できるパイプライン。かなり良い感受性で実行でき、 2つのサンプルを混ぜ合わせ、それらの間にわずか500のSNP(> 99.9%同一!)がある場合でも同定することができる。これにより、NGSサンプルの厳格な品質管理が可能になる。ConFindrはrMLST遺伝子を調べることで機能する(Jolley et al、2012 pubmed)(rMLST: バクテリアリボソームタンパク質サブユニット(rps遺伝子)をコードする53の遺伝子)。これらの53個の遺伝子はシングルピーであり、ほぼすべてのバクテリアで保存されていることが知られているため(いくつかの例外があるが、ConFindrはハンドリングできる)、素晴らしいマーカーとなる。それらはシングルコピーであることが知られているので、複数rMLST遺伝子があると汚染されていると考えられる。1サンプル中に複数のアレルがあるかどうか同定するために、以下のワークフローが行われる:

1、属特異的rMLSTデータベースを構築し、種間汚染をチェックするためにMashを使用して各サンプルの属を決定する。
2、厳しい条件でクオリティトリミングを実行し、BBDukを使用してrMLST遺伝子配列を含むリードを取り出す。
3、rMLST遺伝子にアライメントする。
4、アラインメントを見て、コンタミネーティングSNV - 複数のアレルが存在し、汚染を示すことを示す複数の塩基が存在する部位を有するSNVを見つける。

 

Document

https://lowandrew.github.io/ConFindr/

 

インストール

mac os10.12の miniconda3-4.0.5環境でテストした。

依存

本体 GIthub

 

#anaconda環境ならcondaで導入できる
conda install -y -c bioconda confindr

 > confindr.py -h

$ confindr.py -h

usage: confindr.py [-h] -i INPUT_DIRECTORY -o OUTPUT_NAME [-d DATABASES]

                   [-t THREADS] [-k] [-fid FORWARD_ID] [-rid REVERSE_ID] [-v]

                   [-verbosity {debug,info,warning}]

 

optional arguments:

  -h, --help            show this help message and exit

  -i INPUT_DIRECTORY, --input_directory INPUT_DIRECTORY

                        Folder that contains fastq files you want to check for

                        contamination. Will find any fastq file that contains

                        .fq or .fastq in the filename.

  -o OUTPUT_NAME, --output_name OUTPUT_NAME

                        Base name for output/temporary directories.

  -d DATABASES, --databases DATABASES

                        Databases folder. If you don't already have databases,

                        they will be downloaded automatically. You may also

                        specify the full path to the databases.

  -t THREADS, --threads THREADS

                        Number of threads to run analysis with.

  -k, --keep_files      By default, intermediate files are deleted. Activate

                        this flag to keep intermediate files.

  -fid FORWARD_ID, --forward_id FORWARD_ID

                        Identifier for forward reads.

  -rid REVERSE_ID, --reverse_id REVERSE_ID

                        Identifier for reverse reads.

  -v, --version         show program's version number and exit

  -verbosity {debug,info,warning}, --verbosity {debug,info,warning}

                        Amount of output you want printed to the screen.

                        Defaults to info, which should be good for most users.

 

 

実行方法

1、テストデータダウンロード

wget https://ndownloader.figshare.com/files/9972709 && tar xf 9972709 && rm 9972709

>ls -alh  

$ ls -alh example-data/

total 612696

drwxr-xr-x    4 kazuma  staff   128B 12 13  2017 .

drwx------+ 160 kazuma  staff   5.0K 12  8 21:29 ..

-rw-r--r--    1 kazuma  staff   150M 12 13  2017 example_R1.fastq.gz

-rw-r--r--    1 kazuma  staff   150M 12 13  2017 example_R2.fastq.gz

ペアエンドfastqだけ用意すればよい。

 

2、confindr実行

confindr.py -i example-data -o example-out

 出力

$ ls -alth example-out/

total 56

drwx------+ 470 user  staff    16K 12 15 16:35 ..

drwxr-xr-x    6 user  staff   204B 12 15 11:57 .

-rw-r--r--@   1 user  staff   144B 12 15 11:57 confindr_report.csv

-rw-r--r--@   1 user  staff   755B 12 15 11:57 example_contamination.csv

-rw-r--r--    1 user  staff    13K 12 15 11:57 confindr_log.txt

-rw-r--r--@   1 user  staff   731B 12 15 11:57 example_rmlst.csv

 

confindr_report.csv

f:id:kazumaxneo:20181215163339j:plain

example_contamination.csv

f:id:kazumaxneo:20181215163510j:plain
example_rmlst.csv

f:id:kazumaxneo:20181215163437j:plain

 

バージョン0.4.4からrMLSTの代わりにcgMLST(core genome MLST)を使うオプションも実装されている。詳細はGithubで確認してください。

引用

GitHub - lowandrew/ConFindr: Intra-species bacterial contamination detection