レポジトリより
このプロジェクトは、エクソームシーケンス用のSnakemakeを使った解析パイプラインです。
Illumina HiSeqからのヒトエクソームシーケンシングで広くテストされていますが、必要なリソースファイルを手動でダウンロードすれば、ほとんどのシステムや他の多くの生物種で動作するはずです。
パイプラインの主な手順は以下の通りです。
- bwaによるリファレンスゲノムへのリードのアラインメント
- picardによる重複リードのマーキング
- GATK IndelRealignerによるindel周辺のリアラインメント
- GATK BaseRecalibratorによる塩基の再校正
- GATK HaplotypeCallerによるバリアントコーリング
- gnomADによるpopulation frequenciesのアノテーション
- Variant Effect Predictorによるアノテーション
いつものように試してみます。GATKはv3.7が使用されています。
インストール
condaで付属の.ymlファイルから仮想環境を作って導入した(ubuntu18.04)。
git clone "https://gitlab.univ-nantes.fr/bird_pipeline_registry/exome-pipeline.git"
cd exome-pipeline
mamba env create -f CONDA/envExport.yml
conda activate exome
テストラン
CONFIGに保存されているjsonファイルを指定する。ランが終わるまでには10分程度かかる。
snakemake -C pro="CONFIG/project.test.json" ref="CONFIG/references.test.json" -rp testPipeline -j 4
出力
BED/
Samples/Sample1/
Samples/Sample1/VCF/
VCF/
実際にランするには プロジェクト情報のjsonファイルとサンプル情報のJSONファイルを提供する必要があります。
CONFIG/project.test.json
CONFIG/references.test.json
VCFはbgzipで圧縮してindexが付いている必要があります。ゲノムfastaファイルの他に.dictファイルも必要にります("samtools dict genome.fasta -o genome.dict")。
サンプル情報のjsonファイルを作成するスクリプトも提供されています。ランするには、パイプライン実行時の出力ディレクトリのパス、プロジェクト名、入力fastqのパスを指定します。
python SCRIPTS/make_exome_project.py -o <path of output directory> -n <project name> -i <path to folder containing fastq files> > project.json
fastqはイルミナの命名則に従っている必要があります。
例;xxx_L001_R{1,2}_001.fastq.gz
このスクリプトをランするとCONFIG/project.jsonのようなJSONファイルが出力されるので、あとはreferences.jsonのテンプレートに自分で用意したリファレンスゲノムとアノテーションソースのパスを追加し、変数名をセットすればランできます。exampleのファイルを確認して下さい。
引用