nf-core/deepvariantより
2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取得し、最終的には予測の出力を標準的なVCF形式に変換する。
NextflowパイプラインとしてのDeepVariantは、ユーザーにいくつかの利点を提供する。これは、DeepVariantに必要な入力であり、通常はユーザーが手動で作成する必要がある、いくつかの余分な必要なインデックス付き圧縮ファイルの作成を、前処理ステップを介して自動的に処理する。Variant Callingは、複数のBAMファイルに対して同時に実行でき、Nextflowの内部並列化のおかげで、リソースを無駄にすることがない。NextflowはDockerをサポートしているため、Dockerコンテナ内ですべてのステップを実行することで、計算上の再現性とクリーンな方法で結果を生成することができる。
DeepVariant: Highly Accurate Genomes With Deep Neural Networks
manual
https://nf-co.re/deepvariant/1.0/docs/usage
インストール
# Make sure that Java v8+ is installed:
java -version
# Install Nextflow (持ってない人だけ、condaでも導入可能)
curl -fsSL get.nextflow.io | bash
mv nextflow ~/bin/
#test run (ユーザーにdocker実行権限がなければsudo実行する)
nextflow run nf-core/deepvariant -profile test,docker
出力
実行方法
アセンブリのバージョンとbam、ターゲットのbedファイルを指定する。複数のbamがある場合は--bam_folderオプションを使い、単体のbamでは--bamオプションを使う。
#WGS
nextflow run nf-core/deepvariant --genome hg19 --bam yourBamFile --bed yourBedFile -profile standard,docker
#Exome
nextflow run nf-core/deepvariant --exome --genome hg19 --bam_folder myBamFolder --bed myBedFile -profile standard,docker
- --bed Path to bedfile, specifying region to be analysed must also be supplied
- --bam_folder Use this to specify a folder containing BAM files. Allows multiple BAM files to be analyzed at once. All BAM files will be analyzed unless --bame_file_prefix is used (see below). For example:
- --bam Use this to specify the BAM file
- --genome Standard versions of the genome are prepared with all their compressed and indexed file in a lifebit s3 bucket (hg19| h38 | grch37primary | hs37d5 | hg19chr20).
- --exome For exome bam files
- --max_memory Use to set a top-limit for the default memory requirement for each process. Should be a string in the format integer-unit. eg. `--max_memory '8.GB'``
-
--max_time Use to set a top-limit for the default time requirement for each process. Should be a string in the format integer-unit. eg. --max_time '2.h'
-
--max_cpus Use to set a top-limit for the default CPU requirement for each process. Should be a string in the format integer-unit. eg. --max_cpus 1
引用
A universal SNP and small-indel variant caller using deep neural networks
Ryan Poplin, Pi-Chuan Chang, David Alexander, Scott Schwartz, Thomas Colthurst, Alexander Ku, Dan Newburger, Jojo Dijamco, Nam Nguyen, Pegah T Afshar, Sam S Gross, Lizzie Dorfman, Cory Y McLean, Mark A DePristo
Nat Biotechnol. 2018 Nov;36(10):983-987
参考