macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムのハイブリッドアセンブリとビニングのためのベスト・プラクティス・パイプライン nf-core/mag

2023/03/02 論文引用

 

 ショットガンメタゲノムデータを解析することで、微生物群集に関する貴重な知見が得られると同時に、個々のゲノムレベルでの解決が可能となる。しかし、完全なリファレンスゲノムが存在しない場合、シークエンスリードからメタゲノムアセンブルゲノム(MAG)を再構築する必要がある。本研究では、メタゲノムアセンブリ、ビニング、分類学的分類を行うnf-core/magパイプラインを紹介する。nf-core/magは、ショートリードとロングリードを組み合わせることでアセンブリの連続性を高め、サンプルごとのグループ情報を共アセンブリやゲノムビニングに利用することができる。パイプラインは、インストールが容易で、すべての依存関係がコンテナ内に用意されており、移植性と再現性に優れている。Nextflowで書かれており、パイプライン開発のベストプラクティスであるnf-coreイニシアチブの一環として開発されている。すべてのコードは、GitHubのnf-core organization(https://github.com/nf-core/mag)でホストされており、MITライセンスで公開されている。

 

usage

https://nf-co.re/mag/usage

 

Githubより

デフォルトでは、パイプラインは次の解析を実行する。ショートリードとロングリードの両方をサポートしている。

1、fastpとPorechopでリードとアダプターをクオリティートリムし、FastQCで基本的なQCを実行する。

2、Centrifugeおよび/またはKraken2を用いてリードにtaxonomyを割り当てる。
3、MEGAHITとSPAdesを用いてアセンブリを行い、Quastを用いて品質をチェックする。

4、MetaBAT2を用いてビニングを行い、Buscoを用いてゲノムビンの品質を確認する。

5、GTDB-TkやCATを用いてビンに分類を付与する。

6、指定されたresultsディレクトリに、結果の一部やソフトウェアのバージョンをまとめたMultiQCのレポートなどを作成する。

 

2023/03/02

 

インストール

依存

  • Nextflow (>=21.04.0)

Github

 

テストラン

conda、docker、Singularity、Shifter、Podman(Docker互換のコンテナエンジン)、Charliecloudなどに対応している。

#docker
nextflow run nf-core/mag -profile test,docker

#conda
nextflow run nf-core/mag -profile test,conda

 

出力

f:id:kazumaxneo:20210905223511p:plain

Taxonomy

f:id:kazumaxneo:20210905223720p:plain

Assembly

f:id:kazumaxneo:20210905223739p:plain

Genome Binning

f:id:kazumaxneo:20210905223806p:plain

MEGAHIT-test_minigut-binDepths.heatmap.png

f:id:kazumaxneo:20210905223842p:plain

SPAdes-test_minigut-binDepths.heatmap.png

f:id:kazumaxneo:20210905223917p:plain

Genome Binning/QC

f:id:kazumaxneo:20210905224044p:plain

multiqc

f:id:kazumaxneo:20210905224139p:plain

 

 

実際のランではprofileとfastqのパス、もしくはfastqのパスとサンプル名を記載したCSVファイルを指定する。

#docker
nextflow run nf-core/mag -profile docker --input '*_R{1,2}.fastq.gz'

#samplesheet.csv
nextflow run nf-core/mag -profile docker --input samplesheet.csv

カンマ区切りで最大5列の情報を記載する。ヘッダーはsample,group,short_reads_1,short_reads_2,long_readsとする。

sample,group,short_reads_1,short_reads_2,long_reads
sample1,0,data/sample1_R1.fastq.gz,data/sample1_R2.fastq.gz,data/sample1.fastq.gz
sample2,0,data/sample2_R1.fastq.gz,data/sample2_R2.fastq.gz,data/sample2.fastq.gz
sample3,1,data/sample3_R1.fastq.gz,data/sample3_R2.fastq.gz,



サンプルIDは一意でなければならない。2列目のグループ情報は、ビニングステップの共分散の計算にのみ使用され、共アセンブリには使用されない。共アセンブリには--coassemble_groupオプションを使う。3列目以降で指定するFastQファイルは圧縮されている必要がある(.fastq.gz, .fq.gz)。ロングリードもある場合、ペアエンドのshort readデータとの組み合わせでのみ提供可能。1つのサンプルシート内でシングルエンドとペアエンドの混在は不可。シングルエンドリードを指定する場合は、コマンドラインパラメータ -single_end も指定する。

 

引用

nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning

Sabrina Krakau,  Daniel Straub,  Hadrien Gourlé,  Gisela Gabernet,  Sven Nahnsen

bioRxiv, Posted August 31, 2021

 

2023/01

nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning
Sabrina Krakau, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, and Sven Nahnsen

NAR Genom Bioinform. 2022 Mar; 4(1)

 

 

参考

file:///Users/kazu/Downloads/IPSJ-BIO18054047.pdf

 

DockerユーザーのためのPodmanとBuildahの紹介 - 赤帽エンジニアブログ