macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

nf-coreのDeepVariantパイプライン

 

nf-core/deepvariantより

2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取得し、最終的には予測の出力を標準的なVCF形式に変換する。

NextflowパイプラインとしてのDeepVariantは、ユーザーにいくつかの利点を提供する。これは、DeepVariantに必要な入力であり、通常はユーザーが手動で作成する必要がある、いくつかの余分な必要なインデックス付き圧縮ファイルの作成を、前処理ステップを介して自動的に処理する。Variant Callingは、複数のBAMファイルに対して同時に実行でき、Nextflowの内部並列化のおかげで、リソースを無駄にすることがない。NextflowはDockerをサポートしているため、Dockerコンテナ内ですべてのステップを実行することで、計算上の再現性とクリーンな方法で結果を生成することができる。

 

DeepVariant: Highly Accurate Genomes With Deep Neural Networks


manual

https://nf-co.re/deepvariant/1.0/docs/usage

 

インストール

Github

# Make sure that Java v8+ is installed:
java -version
# Install Nextflow (持ってない人だけ、condaでも導入可能)
curl -fsSL get.nextflow.io | bash
mv nextflow ~/bin/

#test run (ユーザーにdocker実行権限がなければsudo実行する)
nextflow run nf-core/deepvariant -profile test,docker

出力

f:id:kazumaxneo:20210210214641p:plain

 

実行方法

アセンブリのバージョンとbam、ターゲットのbedファイルを指定する。複数のbamがある場合は--bam_folderオプションを使い、単体のbamでは--bamオプションを使う。

#WGS
nextflow run nf-core/deepvariant --genome hg19 --bam yourBamFile --bed yourBedFile -profile standard,docker

#Exome
nextflow run nf-core/deepvariant --exome --genome hg19 --bam_folder myBamFolder --bed myBedFile -profile standard,docker
  • --bed   Path to bedfile, specifying region to be analysed must also be supplied
  • --bam_folder   Use this to specify a folder containing BAM files. Allows multiple BAM files to be analyzed at once. All BAM files will be analyzed unless --bame_file_prefix is used (see below). For example:
  • --bam   Use this to specify the BAM file
  • --genome   Standard versions of the genome are prepared with all their compressed and indexed file in a lifebit s3 bucket (hg19| h38 | grch37primary | hs37d5 | hg19chr20).
  • --exome    For exome bam files
  • --max_memory    Use to set a top-limit for the default memory requirement for each process. Should be a string in the format integer-unit. eg. `--max_memory '8.GB'``
  • --max_time    Use to set a top-limit for the default time requirement for each process. Should be a string in the format integer-unit. eg. --max_time '2.h'

  • --max_cpus    Use to set a top-limit for the default CPU requirement for each process. Should be a string in the format integer-unit. eg. --max_cpus 1

     

 

 

引用

https://nf-co.re/deepvariant


A universal SNP and small-indel variant caller using deep neural networks
Ryan Poplin, Pi-Chuan Chang, David Alexander, Scott Schwartz, Thomas Colthurst, Alexander Ku, Dan Newburger, Jojo Dijamco, Nam Nguyen, Pegah T Afshar, Sam S Gross, Lizzie Dorfman, Cory Y McLean, Mark A DePristo

Nat Biotechnol. 2018 Nov;36(10):983-987

 

参考