2023/03/02 論文引用
ショットガンメタゲノムデータを解析することで、微生物群集に関する貴重な知見が得られると同時に、個々のゲノムレベルでの解決が可能となる。しかし、完全なリファレンスゲノムが存在しない場合、シークエンスリードからメタゲノムアセンブルゲノム(MAG)を再構築する必要がある。本研究では、メタゲノムアセンブリ、ビニング、分類学的分類を行うnf-core/magパイプラインを紹介する。nf-core/magは、ショートリードとロングリードを組み合わせることでアセンブリの連続性を高め、サンプルごとのグループ情報を共アセンブリやゲノムビニングに利用することができる。パイプラインは、インストールが容易で、すべての依存関係がコンテナ内に用意されており、移植性と再現性に優れている。Nextflowで書かれており、パイプライン開発のベストプラクティスであるnf-coreイニシアチブの一環として開発されている。すべてのコードは、GitHubのnf-core organization(https://github.com/nf-core/mag)でホストされており、MITライセンスで公開されている。
usage
Githubより
デフォルトでは、パイプラインは次の解析を実行する。ショートリードとロングリードの両方をサポートしている。
1、fastpとPorechopでリードとアダプターをクオリティートリムし、FastQCで基本的なQCを実行する。
2、Centrifugeおよび/またはKraken2を用いてリードにtaxonomyを割り当てる。
3、MEGAHITとSPAdesを用いてアセンブリを行い、Quastを用いて品質をチェックする。
4、MetaBAT2を用いてビニングを行い、Buscoを用いてゲノムビンの品質を確認する。
5、GTDB-TkやCATを用いてビンに分類を付与する。
6、指定されたresultsディレクトリに、結果の一部やソフトウェアのバージョンをまとめたMultiQCのレポートなどを作成する。
2023/03/02
Pipeline release! nf-core/mag v2.3.0 (Assembly and binning of metagenomes)
— nf-core (@nf_core) March 2, 2023
See the changelog: https://t.co/RaSuR1r8G0
インストール
依存
- Nextflow (>=21.04.0)
テストラン
conda、docker、Singularity、Shifter、Podman(Docker互換のコンテナエンジン)、Charliecloudなどに対応している。
#docker
nextflow run nf-core/mag -profile test,docker
#conda
nextflow run nf-core/mag -profile test,conda
出力
Taxonomy
Assembly
Genome Binning
MEGAHIT-test_minigut-binDepths.heatmap.png
SPAdes-test_minigut-binDepths.heatmap.png
Genome Binning/QC
multiqc
実際のランではprofileとfastqのパス、もしくはfastqのパスとサンプル名を記載したCSVファイルを指定する。
#docker
nextflow run nf-core/mag -profile docker --input '*_R{1,2}.fastq.gz'
#samplesheet.csv
nextflow run nf-core/mag -profile docker --input samplesheet.csv
カンマ区切りで最大5列の情報を記載する。ヘッダーはsample,group,short_reads_1,short_reads_2,long_readsとする。
sample,group,short_reads_1,short_reads_2,long_reads
sample1,0,data/sample1_R1.fastq.gz,data/sample1_R2.fastq.gz,data/sample1.fastq.gz
sample2,0,data/sample2_R1.fastq.gz,data/sample2_R2.fastq.gz,data/sample2.fastq.gz
sample3,1,data/sample3_R1.fastq.gz,data/sample3_R2.fastq.gz,
サンプルIDは一意でなければならない。2列目のグループ情報は、ビニングステップの共分散の計算にのみ使用され、共アセンブリには使用されない。共アセンブリには--coassemble_groupオプションを使う。3列目以降で指定するFastQファイルは圧縮されている必要がある(.fastq.gz, .fq.gz)。ロングリードもある場合、ペアエンドのshort readデータとの組み合わせでのみ提供可能。1つのサンプルシート内でシングルエンドとペアエンドの混在は不可。シングルエンドリードを指定する場合は、コマンドラインパラメータ -single_end も指定する。
引用
nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning
Sabrina Krakau, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, Sven Nahnsen
bioRxiv, Posted August 31, 2021
2023/01
nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning
Sabrina Krakau, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, and Sven Nahnsen
NAR Genom Bioinform. 2022 Mar; 4(1)
参考
file:///Users/kazu/Downloads/IPSJ-BIO18054047.pdf