構造変異(Structural variants: SV)は、ガンをはじめとするさまざまな遺伝病に関与する重要な遺伝的変異の一種である。しかし、全ゲノムシークエンスの進歩にもかかわらず、ショートリードデータに含まれるSVを包括的かつ正確に検出することは、実用上および計算上の課題がある。本研究では、複数のSV検出ツールの並列実行を可能にし、検出されたSVコールセットの解析例をJupyter Notebookで提供する移植性の高いワークフロー「sv-callers」を提案する。このワークフローは、ソフトウェアの依存関係の展開、設定、新しい解析ツールの追加を容易に行うことができる。さらに、異なる計算機システムへの移植も最小限の労力で行うことができる。最後に、体細胞および生殖細胞系列のSV解析を異なる高性能計算機で行うことで、ワークフローの有用性を実証する。
インストール
condaコマンドにYAMLファイを読み込ませて環境を作った。
Gihtub
git clone https://github.com/GooglingTheCancerGenome/sv-callers.git
cd sv-callers
mamba env create -n wf -f environment.yaml
conda activate wf
cd snakemake
# 'dry' run
> snakemake -np
# 'vanilla' run
> snakemake -C echo_run=1
テストラン
SlurmまたはGridEngineクラスタにジョブを投入する。
SCH=slurm # or gridengine
snakemake -C echo_run=1 mode=p enable_callers="['manta','delly','lumpy','gridss']" --use-conda --latency-wait 30 --jobs 14 \
--cluster "xenon scheduler $SCH --location local:// submit --name smk.{rule} --inherit-env --cores-per-task {threads} --max-run-time 1 --max-memory {resources.mem_mb} --working-directory . --stderr stderr-%j.log --stdout stdout-%j.log" &>smk.log&
1サンプルまたは腫瘍と正常のペアで、8つのSVコーラーのジョブと6つの後処理ジョブが生成される。
引用
sv-callers: a highly portable parallel workflow for structural variant detection in whole-genome sequence data
Arnold Kuzniar, Jason Maassen, Stefan Verhoeven, Luca Santuari, Carl Shneider, Wigard P. Kloosterman, Jeroen de Ridder
PeerJ. 2020; 8: e8214