macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

生殖細胞バリアントや体細胞バリアントを検出する自動化されたパイプライン Sarek

2021 2/9 タイトル修正

2021 2/12, 2/15コマンド追記

2021 5/16 コメント追記

 

 全ゲノムシークエンシング(WGS)は、精密医療の発展のための研究の基盤技術であるが、WGS解析のためのポータブルで使いやすいワークフローが限られていることが、多くの研究グループにとって大きな課題となっており、科学の進歩を阻害する要因となっている。ここでは、WGS、全ゲノムシークエンシング(WES)、遺伝子パネルからのシークエンシングデータに基づいて、生殖細胞変異や体細胞突然変異を検出するためのオープンソースのワークフローであるSarekを紹介する。Sarekの特徴は、(i)簡単なインストール、(ii)異なるコンピュータ環境での堅牢な移植性、(iii)包括的なドキュメント、(iv)透明で読みやすいコード、(v)広範な品質指標の報告である。SarekはNextflowワークフロー言語で実装されており、DockerやSingularityコンテナ、Conda環境の両方をサポートしているため、POSIX互換のコンピュータやクラウドコンピュート環境に簡単に導入することができる。Sarekは、リードアライメントと前処理に関するGATKのベスト・プラクティスに準拠しており、生殖細胞および体細胞のシングルヌクレオチドバリアント、挿入・欠失バリアント、構造バリアント、腫瘍サンプルの純度、およびploidyとコピー数のバリエーションの同定とアノテーションのための幅広いソフトウェアが含まれている。Sarekは、簡単、効率的、再現性のあるWGS解析を提供し、シーケンシング施設での生産ワークフローとして、また、個々の研究グループのための強力なスタンドアロンツールとして、容易に使用することができる。Sarek のソースコード、ドキュメント、インストール手順書は https://github.com/nf-core/sarek および https://nf-co.re/sarek/ で自由に入手できる。

 

usage

https://nf-co.re/sarek/usage#introduction

 

インストール

ubuntu18.04LTSでテストした。

Github

# Make sure that Java v8+ is installed:
java -version
# Install Nextflow (持ってない人だけ、condaでも導入可能)
curl -fsSL get.nextflow.io | bash
mv nextflow ~/bin/

#test run (権限がないならsudo実行、数時間かかる。docker/singularity/podman、に対応している。condaも対応しているが推奨されていない)
#dockerを使用
nextflow run nf-core/sarek -profile test,docker

result

f:id:kazumaxneo:20210209122443p:plain

Preprocessing/

f:id:kazumaxneo:20210209122541p:plain

Reports/

f:id:kazumaxneo:20210209122648p:plain

Reports/9876T/

f:id:kazumaxneo:20210209122737p:plain

VariantCalling/

f:id:kazumaxneo:20210209122800p:plain

pipeline_info/

f:id:kazumaxneo:20210209122820p:plain

 

 

実行方法

実際にサンプルをランする際には、fastq(または処理済みのbam)のパス(--input)、プロファイル(-profile)、サンプルグループを記載したTSVファイルを指定する。

nextflow run nf-core/sarek --input sample.tsv --step mapping --use_gatk_spark --save_bam_mapped --generate_gvcf -profile docker
  • --input  Path to input file(s).
  • --outdir The output directory where the results will be saved.
  • --step   Starting step. default:'mapping'
  • --cpus default:8
  • --use_gatk_spark   Enable usage of GATK Spark implementation

  • --save_bam_mapped   Save Mapped BAMs

  • --generate_gvcf   Generate g.vcf output from GATK HaplotypeCaller

  • --single_cpu_mem   Use to set memory for a single CPU. default:'7 GB'
  • --max_memory   Maximum amount of memory that can be requested for any single job. default:'128.GB'
  • -profile  Use this parameter to choose a configuration profile. Profiles can give configuration presets for different compute environments (docker|singularity|podman|conda|test|test_annotation|test_use_gatk_spark|

test_split_fastq|test_targeted|test_tool|test_trimming|test_umi_qiaseq|test_umi_tso).

サンプルグループを記載するTSVファイルについてはmanualを確認して下さい。 

 メモ

メモリが足りない可能性があるので、多く利用できるなら増やしておく(option)。

 

 

Sentieon (commercial solution)

Germline SNV/INDEL Variant Calling - DNAseq

nextflow run nf-core/sarek --input sample.tsv -profile docker --sentieon and --tools DNAseq 
  •  --sentieon   Enable Sentieon if available.
  • --tools   Tools to use for variant calling and/or for annotation.

  • --step  Starting step. default:'mapping'

 

メモリは多めに使います。最低128GB程度は必要のようです。

 

2021 2/16

バリアントコールまで行うには商用のオプションが必須のようです。勘違いしておりました。

引用

Sarek: A portable workflow for whole-genome sequencing analysis of germline and somatic variants

 Maxime Garcia, Szilveszter Juhos, Malin Larsson, Pall I. Olason,
Marcel Martin, Jesper Eisfeldt, Sebastian DiLorenzo, Johanna Sandgren,
Teresita Díaz De Ståhl, Philip Ewels, Valtteri Wirta, Monica Nistér,
Max Käller, Björn Nystedt

 F1000Res, Version 2. doi: 10.12688/f1000research.16665.2