発現情報に加えて、RNAシークエンシング(RNA-seq)データは、分析対象の生物の遺伝子に存在する体細胞変異を取得するために使用することができる。CalliNGS-NFパイプラインは、RNAseqデータを処理して、スモールバリアント(SNV)、SNP、およびsmall INDELs(挿入、欠失)を取得する。このパイプラインは、RNAseq上でのバリアントコールのためのGATKベストプラクティスを実装したもので、解析の主要なステップをすべて含んでいる。GATKのベストプラクティスに加えて、パイプラインには、得られたSNPと既知のバリアントを比較するステップと、オーバーラップしたSNPのアレル特異的カウントを計算するステップが含まれている。
Featured pipeline of the day: CalliNGS-NF, Variant calling analysis with RNA-Seq data based on GATK best practiceshttps://t.co/25iXABvdJB
— Nextflow (@nextflowio) 2017年4月7日
インストール
依存
- Nextflow 20.07.1 (or later)
- Java 8 or later
- Docker 1.10 (or later) or Singularity engine
- GATK 4.1.x
#nextflowのダウンロード(ない人だけ)
curl -s https://get.nextflow.io | bash
mv nextflow /usr/local/bin
#2 docker imageのpull
docker pull cbcrg/callings-nf:gatk4
> nextflow run CRG-CNAG/CalliNGS-NF -profile docker
テストラン
ここではGithubレポジトリ: CalliNGS-NF/data/に置かれているテストデータを使う。
現在/home/kazuにいるとして、以下のように実行する。最低限ゲノムとfastqを指定する必要がある。ここではそれに加えて既知変異(または多型)のVCFとブラックリスト領域のbedを指定している。
git clone https://github.com/CRG-CNAG/CalliNGS-NF.git
home=/home/kazu
sudo nextflow run CRG-CNAG/CalliNGS-NF -profile docker \
--genome $home/CalliNGS-NF/data/genome.fa \
--reads '$home/CalliNGS-NF/data/reads/*_{1,2}.fq.gz' \
--variants $home/CalliNGS-NF/data/known_variants.vcf.gz \
--denylist $home/CalliNGS-NF/data/denylist.bed \
--results $home/results
dockerは(権限設定していない場合)sudoをつけて実行する。
終了。
出力
final.vcf
解析フローはGithubで確認してください。マッピングにはSTARが使われています。
引用
GitHub - CRG-CNAG/CalliNGS-NF: GATK RNA-Seq Variant Calling in Nextflow
関連