macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GATKベストプラクティスに基づいた、RNA seqのバリアントコールを行うnextflowパイプライン CalliNGS-NF

 

 発現情報に加えて、RNAシークエンシング(RNA-seq)データは、分析対象の生物の遺伝子に存在する体細胞変異を取得するために使用することができる。CalliNGS-NFパイプラインは、RNAseqデータを処理して、スモールバリアント(SNV)、SNP、およびsmall INDELs(挿入、欠失)を取得する。このパイプラインは、RNAseq上でのバリアントコールのためのGATKベストプラクティスを実装したもので、解析の主要なステップをすべて含んでいる。GATKのベストプラクティスに加えて、パイプラインには、得られたSNPと既知のバリアントを比較するステップと、オーバーラップしたSNPのアレル特異的カウントを計算するステップが含まれている。

 

 

インストール

依存

  • Nextflow 20.07.1 (or later)
  • Java 8 or later
  • Docker 1.10 (or later) or Singularity engine
  • GATK 4.1.x

Github

#nextflowのダウンロード(ない人だけ)
curl
-s https://get.nextflow.io | bash
mv nextflow /usr/local/bin

#2 docker imageのpull
docker pull cbcrg/callings-nf:gatk4

> nextflow run CRG-CNAG/CalliNGS-NF -profile docker 

 

テストラン

ここではGithubレポジトリ: CalliNGS-NF/data/に置かれているテストデータを使う。

 

現在/home/kazuにいるとして、以下のように実行する。最低限ゲノムとfastqを指定する必要がある。ここではそれに加えて既知変異(または多型)のVCFとブラックリスト領域のbedを指定している。

git clone https://github.com/CRG-CNAG/CalliNGS-NF.git

home=/home/kazu
sudo nextflow run CRG-CNAG/CalliNGS-NF -profile docker \
--genome $home/CalliNGS-NF/data/genome.fa \
--reads '$home/CalliNGS-NF/data/reads/*_{1,2}.fq.gz' \
--variants $home/CalliNGS-NF/data/known_variants.vcf.gz \
--denylist $home/CalliNGS-NF/data/denylist.bed \
--results $home/results

dockerは(権限設定していない場合)sudoをつけて実行する。 

f:id:kazumaxneo:20200827222338p:plain

終了。

 

出力

f:id:kazumaxneo:20200827222130p:plain

f:id:kazumaxneo:20200827222219p:plain

final.vcf

f:id:kazumaxneo:20200827222304p:plain

 

解析フローはGithubで確認してください。マッピングにはSTARが使われています。

引用

GitHub - CRG-CNAG/CalliNGS-NF: GATK RNA-Seq Variant Calling in Nextflow

 

関連