WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。
現在はバイナリのみ公開されています。試してみます。
Githubより
このプログラム;Welcome to Whole Genome Alignment-based Variation Hunter(WGAVarHunter)はRustで書かれており、samtools, sequence aligner minimap2, winnowmap, unimap, wfmashのいずれかが必要です。WGAVHunterを使用する前に、必要なツールをインストールする必要があります。
Hello, I have developed a new tool to speed up variant identification from whole genome alignment. It was fully written in rust. Here is a beta version. Feel free to test and let me know if you have any questions. Thank you. https://t.co/iqEQbEKKJz
— Andy Yuan (@Yuxuan_Yuan) May 24, 2022
インストール
ubuntu18でテストした。samtoolsに加えて、 minimap2, winnowmap, unimap, wfmashのいずれかのアライナーのPATHが通っている必要がある。アライナーのデフォルトはminimap2だが、現在はベータバージョンであり、今後変更される可能性もある。
git clone https://github.com/yuxuanyuan/WGAVarHunter
cd WGAVarHunter/linux/
chmod +x WGAVHunter
> ./WGAVHunter -h
----------------------------------------------------------------------------------------------------
Program: WGAVHunter
Version: 0.1.0
Author: Andy Yuan (yuxuan.yuan@outlook.com)
----------------------------------------------------------------------------------------------------
Synopsis: Discover genomic variants based on whole genome alignment through an efficient way
USAGE:
WGAVHunter [OPTIONS] -r <REFERENCE> -q <QUERY>... -o <OUTDIR>
OPTIONS:
-r <REFERENCE> A reference fasta file
-q <QUERY>... Query fasta file(s). Can be single or multiple
-n <N_PLOIDY> Ploidy level of the species [default: 2]
-w <WINDOW_SIZE>... Window size(s) used to split the query fasta (kb). Can be single
or multiple values [default: 500]
-P <PERCENTAGE> Percentage (%) of adjacent windows overlapped [default: 10]
-a <ALIGNER> Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]
-A <ALIGNER_SETTINGS> Aligner parameter settings in "" [default: "-x asm20"]
-u <USE_SPLIT> Use 'split-prefix' for (minimap2|winnowmap). Could be pretty slow
and storage demanding if the genome size is big [default: false]
-c <CHUNK_SIZE> Chunk size (kb) used to parse each chromosome [default: 1000]
-R <REMOVE_UNQUALIFIED> Remove query seq with less than n (bp) aligned [default: 1000]
-m <MAP_QUALITY> Mapping quality used for variant calling [default: 30]
-s <CALL_SNVS> Call single nucleotide variants (SNVs) [default: true]
-I <CALL_SMALL_INDELS> Call small indels [default: true]
-S <CALL_SVS> Call structural variants (SVs) [default: true]
-N <NOVEL_REGIONS> Report novel genomic regions in the input fastas [default: true]
-M <MAX_INDEL_SIZE> Maximum small indel size (bp) called [default: 49]
-d <DEFAULT_SV_SIZE> Minimum SV size (bp) called [default: 50]
-D <DIST_DUP> Maximum allowed distance (bp) between aligned query coordinates
for duplication calling [default: 1000]
-T <TRANS_SIZE> Minimum translocation size (kb) called [default: 10]
-t <THREADS> Number of threads [default: 4]
-p <PREFIX> Prefix of the output files [default: WGAVHunter]
-o <OUTDIR> Output directory
-i <INTER_DIR> Intermediate folder [default: $OUTDIR/tmp]
-k <KEEP_INTER> Keep intermediate folder and content [default: false]
-e <ENABLE_DEBUG> Enable debug mode [default: false]
-h, --help Print help information
-V, --version Print version information
実行方法
fasta形式のリファレンス配列と比較するターゲット配列を指定する。
WGAVHunter -r ref.fa -q qry.fa -o .
- -r A reference fasta file
- -q Query fasta file(s). Can be single or multiple
- -a Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]
- -t Number of threads [default: 4]
- -p Prefix of the output files [default: WGAVHunter]
- -o Output directory
出力例
使用する場合はQ&Aも確認しておいて下さい。
引用
関連