メタゲノムのハイブリッドアセンブリとビニングのためのベスト・プラクティス・パイプライン nf-core/mag

2023/03/02 論文引用

　ショットガンメタゲノムデータを解析することで、微生物群集に関する貴重な知見が得られると同時に、個々のゲノムレベルでの解決が可能となる。しかし、完全なリファレンスゲノムが存在しない場合、シークエンスリードからメタゲノムアセンブルゲノム（MAG）を再構築する必要がある。本研究では、メタゲノムアセンブリ、ビニング、分類学的分類を行うnf-core/magパイプラインを紹介する。nf-core/magは、ショートリードとロングリードを組み合わせることでアセンブリの連続性を高め、サンプルごとのグループ情報を共アセンブリやゲノムビニングに利用することができる。パイプラインは、インストールが容易で、すべての依存関係がコンテナ内に用意されており、移植性と再現性に優れている。Nextflowで書かれており、パイプライン開発のベストプラクティスであるnf-coreイニシアチブの一環として開発されている。すべてのコードは、GitHubのnf-core organization（https://github.com/nf-core/mag）でホストされており、MITライセンスで公開されている。

usage

https://nf-co.re/mag/usage

Githubより

デフォルトでは、パイプラインは次の解析を実行する。ショートリードとロングリードの両方をサポートしている。

１、fastpとPorechopでリードとアダプターをクオリティートリムし、FastQCで基本的なQCを実行する。

２、Centrifugeおよび/またはKraken2を用いてリードにtaxonomyを割り当てる。
３、MEGAHITとSPAdesを用いてアセンブリを行い、Quastを用いて品質をチェックする。

４、MetaBAT2を用いてビニングを行い、Buscoを用いてゲノムビンの品質を確認する。

５、GTDB-TkやCATを用いてビンに分類を付与する。

６、指定されたresultsディレクトリに、結果の一部やソフトウェアのバージョンをまとめたMultiQCのレポートなどを作成する。

2023/03/02

Pipeline release! nf-core/mag v2.3.0 (Assembly and binning of metagenomes)

See the changelog: https://t.co/RaSuR1r8G0
— nf-core (@nf_core) March 2, 2023

インストール

依存

Nextflow (>=21.04.0)

Github

テストラン

conda、docker、Singularity、Shifter、Podman（Docker互換のコンテナエンジン）、Charliecloudなどに対応している。

#docker
nextflow run nf-core/mag -profile test,docker

#conda
nextflow run nf-core/mag -profile test,conda

出力

f:id:kazumaxneo:20210905223511p:plain

Taxonomy

f:id:kazumaxneo:20210905223720p:plain

Assembly

f:id:kazumaxneo:20210905223739p:plain

Genome Binning

f:id:kazumaxneo:20210905223806p:plain

MEGAHIT-test_minigut-binDepths.heatmap.png

f:id:kazumaxneo:20210905223842p:plain

SPAdes-test_minigut-binDepths.heatmap.png

f:id:kazumaxneo:20210905223917p:plain

Genome Binning/QC

f:id:kazumaxneo:20210905224044p:plain

multiqc

f:id:kazumaxneo:20210905224139p:plain

実際のランではprofileとfastqのパス、もしくはfastqのパスとサンプル名を記載したCSVファイルを指定する。

#docker
nextflow run nf-core/mag -profile docker --input '*_R{1,2}.fastq.gz'

#samplesheet.csv
nextflow run nf-core/mag -profile docker --input samplesheet.csv

カンマ区切りで最大5列の情報を記載する。ヘッダーはsample,group,short_reads_1,short_reads_2,long_readsとする。

sample,group,short_reads_1,short_reads_2,long_reads
sample1,0,data/sample1_R1.fastq.gz,data/sample1_R2.fastq.gz,data/sample1.fastq.gz
sample2,0,data/sample2_R1.fastq.gz,data/sample2_R2.fastq.gz,data/sample2.fastq.gz
sample3,1,data/sample3_R1.fastq.gz,data/sample3_R2.fastq.gz,

サンプルIDは一意でなければならない。2列目のグループ情報は、ビニングステップの共分散の計算にのみ使用され、共アセンブリには使用されない。共アセンブリには--coassemble_groupオプションを使う。3列目以降で指定するFastQファイルは圧縮されている必要がある（.fastq.gz, .fq.gz）。ロングリードもある場合、ペアエンドのshort readデータとの組み合わせでのみ提供可能。1つのサンプルシート内でシングルエンドとペアエンドの混在は不可。シングルエンドリードを指定する場合は、コマンドラインパラメータ -single_end も指定する。

引用

nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning

Sabrina Krakau, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, Sven Nahnsen

bioRxiv, Posted August 31, 2021

2023/01

nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning
Sabrina Krakau, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, and Sven Nahnsen

NAR Genom Bioinform. 2022 Mar; 4(1)

参考

file:///Users/kazu/Downloads/IPSJ-BIO18054047.pdf

DockerユーザーのためのPodmanとBuildahの紹介 - 赤帽エンジニアブログ