macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

エキソームのバリアント解析パイプライン EXOME-pipeline

 

レポジトリより
このプロジェクトは、エクソームシーケンス用のSnakemakeを使った解析パイプラインです。
Illumina HiSeqからのヒトエクソームシーケンシングで広くテストされていますが、必要なリソースファイルを手動でダウンロードすれば、ほとんどのシステムや他の多くの生物種で動作するはずです。

パイプラインの主な手順は以下の通りです。

  1. bwaによるリファレンスゲノムへのリードのアラインメント
  2. picardによる重複リードのマーキング
  3. GATK IndelRealignerによるindel周辺のリアラインメント
  4. GATK BaseRecalibratorによる塩基の再校正
  5. GATK HaplotypeCallerによるバリアントコーリン
  6. gnomADによるpopulation frequenciesのアノテーション
  7. Variant Effect Predictorによるアノテーション

 

いつものように試してみます。GATKはv3.7が使用されています。

インストール

condaで付属の.ymlファイルから仮想環境を作って導入した(ubuntu18.04)。

Github

git clone "https://gitlab.univ-nantes.fr/bird_pipeline_registry/exome-pipeline.git"
cd exome-pipeline
mamba env create -f CONDA/envExport.yml
conda activate exome

 

テストラン

CONFIGに保存されているjsonファイルを指定する。ランが終わるまでには10分程度かかる。

snakemake -C pro="CONFIG/project.test.json" ref="CONFIG/references.test.json" -rp testPipeline -j 4

出力

f:id:kazumaxneo:20210911203705p:plain

BED/

f:id:kazumaxneo:20210911203912p:plain

Samples/Sample1/

f:id:kazumaxneo:20210911203735p:plain

Samples/Sample1/VCF/

f:id:kazumaxneo:20210911203822p:plain

VCF/

f:id:kazumaxneo:20210911203822p:plain

 

実際にランするには プロジェクト情報のjsonファイルとサンプル情報のJSONファイルを提供する必要があります。

CONFIG/project.test.json

f:id:kazumaxneo:20210911204223p:plain

CONFIG/references.test.json

f:id:kazumaxneo:20210911204323p:plain

VCFはbgzipで圧縮してindexが付いている必要があります。ゲノムfastaファイルの他に.dictファイルも必要にります("samtools dict genome.fasta -o genome.dict")。

 

サンプル情報のjsonファイルを作成するスクリプトも提供されています。ランするには、パイプライン実行時の出力ディレクトリのパス、プロジェクト名、入力fastqのパスを指定します。

python SCRIPTS/make_exome_project.py -o <path of output directory> -n <project name> -i <path to folder containing fastq files> > project.json

fastqはイルミナの命名則に従っている必要があります。

例;xxx_L001_R{1,2}_001.fastq.gz

 

このスクリプトをランするとCONFIG/project.jsonのようなJSONファイルが出力されるので、あとはreferences.jsonのテンプレートに自分で用意したリファレンスゲノムとアノテーションソースのパスを追加し、変数名をセットすればランできます。exampleのファイルを確認して下さい。

 

引用

bird_pipeline_registry / EXOME-pipeline · GitLab