macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムのハイブリッドアセンブリとビニングのためのベスト・プラクティス・パイプライン nf-core/mag

 

 ショットガンメタゲノムデータを解析することで、微生物群集に関する貴重な知見が得られると同時に、個々のゲノムレベルでの解決が可能となる。しかし、完全なリファレンスゲノムが存在しない場合、シークエンスリードからメタゲノムアセンブルゲノム(MAG)を再構築する必要がある。本研究では、メタゲノムアセンブリ、ビニング、分類学的分類を行うnf-core/magパイプラインを紹介する。nf-core/magは、ショートリードとロングリードを組み合わせることでアセンブリの連続性を高め、サンプルごとのグループ情報を共アセンブリやゲノムビンニングに利用することができる。パイプラインは、インストールが容易で、すべての依存関係がコンテナ内に用意されており、移植性と再現性に優れている。Nextflowで書かれており、パイプライン開発のベストプラクティスであるnf-coreイニシアチブの一環として開発されている。すべてのコードは、GitHubのnf-core organization(https://github.com/nf-core/mag)でホストされており、MITライセンスで公開されている。

 

usage

https://nf-co.re/mag/usage

 

Githubより

デフォルトでは、パイプラインは次の解析を実行する。ショートリードとロングリードの両方をサポートしている。

1、fastpとPorechopでリードとアダプターをクオリティートリムし、FastQCで基本的なQCを実行する。

2、Centrifugeおよび/またはKraken2を用いてリードにtaxonomyを割り当てる。
3、MEGAHITとSPAdesを用いてアセンブリを行い、Quastを用いて品質をチェックする。

4、MetaBAT2を用いてビニングを行い、Buscoを用いてゲノムビンの品質を確認する。

5、GTDB-TkやCATを用いてビンに分類を付与する。

6、指定されたresultsディレクトリに、結果の一部やソフトウェアのバージョンをまとめたMultiQCのレポートなどを作成する。

 

インストール

依存

  • Nextflow (>=21.04.0)

Github

 

テストラン

conda、docker、Singularity、Shifter、Podman(Docker互換のコンテナエンジン)、Charliecloudなどに対応している。

#docker
nextflow run nf-core/mag -profile test,docker

#conda
nextflow run nf-core/mag -profile test,conda

 

出力

f:id:kazumaxneo:20210905223511p:plain

Taxonomy

f:id:kazumaxneo:20210905223720p:plain

Assembly

f:id:kazumaxneo:20210905223739p:plain

Genome Binning

f:id:kazumaxneo:20210905223806p:plain

MEGAHIT-test_minigut-binDepths.heatmap.png

f:id:kazumaxneo:20210905223842p:plain

SPAdes-test_minigut-binDepths.heatmap.png

f:id:kazumaxneo:20210905223917p:plain

Genome Binning/QC

f:id:kazumaxneo:20210905224044p:plain

multiqc

f:id:kazumaxneo:20210905224139p:plain

 

 

実際のランではprofileとfastqのパス、もしくはfastqのパスとサンプル名を記載したCSVファイルを指定する。

#docker
nextflow run nf-core/mag -profile docker --input '*_R{1,2}.fastq.gz'

#samplesheet.csv
nextflow run nf-core/mag -profile docker --input samplesheet.csv

カンマ区切りで最大5列の情報を記載する。ヘッダーはsample,group,short_reads_1,short_reads_2,long_readsとする。

sample,group,short_reads_1,short_reads_2,long_reads
sample1,0,data/sample1_R1.fastq.gz,data/sample1_R2.fastq.gz,data/sample1.fastq.gz
sample2,0,data/sample2_R1.fastq.gz,data/sample2_R2.fastq.gz,data/sample2.fastq.gz
sample3,1,data/sample3_R1.fastq.gz,data/sample3_R2.fastq.gz,



サンプルIDは一意でなければならない。2列目のグループ情報は、ビニングステップの共分散の計算にのみ使用され、共アセンブリには使用されない。共アセンブリには--coassemble_groupオプションを使う。3列目以降で指定するFastQファイルは圧縮されている必要がある(.fastq.gz, .fq.gz)。ロングリードもある場合、ペアエンドのshort readデータとの組み合わせでのみ提供可能。1つのサンプルシート内でシングルエンドとペアエンドの混在は不可。シングルエンドリードを指定する場合は、コマンドラインパラメータ -single_end も指定する。

 

引用

nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning

Sabrina Krakau,  Daniel Straub,  Hadrien Gourlé,  Gisela Gabernet,  Sven Nahnsen

bioRxiv, Posted August 31, 2021

 

参考

file:///Users/kazu/Downloads/IPSJ-BIO18054047.pdf

 

DockerユーザーのためのPodmanとBuildahの紹介 - 赤帽エンジニアブログ