macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

nf-coreのampliseqパイプライン

2021 2/13 誤字修正

2023/03/05 テストラン追記

 

 微生物群集の構成を明らかにし、微生物集団の動態を解明し、環境試料中の微生物の多様性を探るための主要な手法の一つとして、DNAやRNAを用いた16S rRNA(遺伝子)アンプリコンシークエンシングとバイオインフォマティクス解析を組み合わせたハイスループットスクリーニングがある。しかし、対照的な生息地からの環境試料に焦点を当てた場合、どのような解析手法が現実を最も正確に反映した結果を提供するのか、解析手法の違いによって微生物群集研究の解釈にどのような偏りがあるのか、使いやすいパイプラインで最適な解析ワークフローを実現できるのかについては、これまで体系的に評価されていなかった。ここでは、微生物群集の構成が既知の3つの模擬データセットを用いて、16S rRNA(遺伝子)アンプリコン配列解析ツール(Mothur, QIIME1, QIIME2, MEGAN)の性能を比較した。その結果、QIIME2は、配列復元(10倍以上の偽陽性の減少)、分類学的分類(22%以上のFスコアの改善)、多様性推定(5%以上の評価の改善)において、他のすべての調査ツールを凌駕することが示された。陸上と淡水の対照的な4つのサイトから得られた24の環境データセットをさらに分析した結果、すべてのパイプラインの微生物群集の構成が属数レベルで劇的に異なることが明らかになった。例えば、調査した河川水域では、SpaerotilusはQIIME1を用いた場合にのみ報告され(8%の含有量)、AgitococcusはQIIME1またはQIIME2を用いた場合にのみ報告された(それぞれ2%または3%の含有量)が、MothurまたはMEGANを用いた場合には、両属とも検出されなかった。これらの豊富な分類群は、これらのサイトにおける重要な生物地球化学的サイクル(例えば、硝酸塩や硫酸塩の還元)に関係していると考えられるため、それらの検出と半定量的な列挙は、有効な解釈のために重要である。16S rRNA(遺伝子)アンプリコン配列を生の配列ファイルから解析するためのFAIR(Findable, Accessible, Interoperable, and Re-usable)を可能にする高性能コンピューティング準拠のワークフローを構築し、本研究で明らかになった最適な手法を用いている。本ワークフローは、今後の研究のために検討されるべきものであり、これにより、微生物群集データ解析の信頼性と信頼性を最大化しつつ、ハイスループット16S rRNA(遺伝子)配列データの解析を大幅に促進することが可能となる。

 

By default, the pipeline currently performs the following:

  • Sequencing quality control (FastQC)
  • Trimming of reads (Cutadapt)
  • Illumina read processing with QIIME2
  • Infer Amplicon Sequence Variants (ASVs) (DADA2)
  • Taxonomical classification based on SILVA v132 or UNITE database
  • excludes unwanted taxa, produces absolute and relative feature/taxa count tables and plots, plots alpha rarefaction curves, computes alpha and beta diversity indices and plots thereof (QIIME2)
  • Calls differentially abundant taxa (ANCOM)
  • Overall pipeline run summaries (MultiQC)

 

Usage

https://nf-co.re/ampliseq/1.1.2/usage

 

インストール

macos10.14のnextflow version 20.10.0.5430で-profile dockerを使ってテストした(nextflowが古い場合は更新すること)。

Github

# Make sure that Java v8+ is installed:
java -version
# Install Nextflow (持ってない人だけ、condaでも導入可能)
curl -fsSL get.nextflow.io | bash
#パスの通ったディレクトリに移動

mv nextflow ~/bin/

#pull
nextflow pull nf-core/ampliseq

 

テストラン

#dockerを使う例(実行権がなければsudo実行する)
nextflow run nf-core/ampliseq -profile test,docker --outdir output_dir
  • -profile   <docker/singularity/podman/conda/institute>

出力

f:id:kazumaxneo:20210213111847p:plain

 

 

実行方法

増幅プライマー配列と(--FW_primer & --RV_primer)、fastqのパスを指定する(--input)。ここでは プロファイルにdockerを指定。任意でサンプルグループも指定する。パイプラインに提供するfastqは"*_R{1,2}_001.fastq.gz"の形式になっていないといけない。ファイルのパスを指定する際はダブルクオーテーションで囲む。メタデータファイルはQIIME2の仕様(https://docs.qiime2.org/2019.10/tutorials/metadata/)に準拠していなければならない。

nextflow run nf-core/ampliseq \
-profile docker \
--input "fastq_dir" \
--FW_primer GTGYCAGCMGCCGCGGTAA \
--RV_primer GGACTACNVGGGTWTCTAAT \
--metadata "Metadata.tsv"
  • --input   Folder containing paired-end demultiplexed FastQ files

  • --FW_primer   Forward primer sequence

  • --RV_primer   Reverse primer sequence

  • --metadata   Path to metadata sheet, when missing most downstream analysis are skipped (barplots, PCoA plots, ...).

  • --multipleSequencingRuns   If samples were sequenced in multiple sequencing runs

  • --manifest   Path to tab-separated table with sample IDs and paths to sequencing files

  • --max_cpus Maximum number of CPUs that can be requested for any single job. default:16
  • --max_memory Maximum amount of memory that can be requested for any single job. default:'128.GB'

様々なオプションが用意されています。nf-coreのparameter docタブで確認してください。正常にランするには、データによりますが、メモリは最低64GBくらいは必要です。

 

メモ

QIIME2のメタデータファイル例

https://data.qiime2.org/2019.10/tutorials/metadata/faith_pd_vector.qza

f:id:kazumaxneo:20210213133755p:plain

 

引用

Interpretations of Environmental Microbial Community Studies Are Biased by the Selected 16S rRNA (Gene) Amplicon Sequencing Pipeline
Daniel Straub, Nia Blackwell, Adrian Langarica-Fuentes, Alexander Peltzer, Sven Nahnsen, Sara Kleindienst
Front. Microbiol., 23 October 2020