全ゲノムアライメントからバリアントを報告する WGAVarHunter

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。

現在はバイナリのみ公開されています。試してみます。

Githubより

このプログラム；Welcome to Whole Genome Alignment-based Variation Hunter（WGAVarHunter）はRustで書かれており、samtools, sequence aligner minimap2, winnowmap, unimap, wfmashのいずれかが必要です。WGAVHunterを使用する前に、必要なツールをインストールする必要があります。

Hello, I have developed a new tool to speed up variant identification from whole genome alignment. It was fully written in rust. Here is a beta version. Feel free to test and let me know if you have any questions. Thank you. https://t.co/iqEQbEKKJz
— Andy Yuan (@Yuxuan_Yuan) May 24, 2022

インストール

ubuntu18でテストした。samtoolsに加えて、 minimap2, winnowmap, unimap, wfmashのいずれかのアライナーのPATHが通っている必要がある。アライナーのデフォルトはminimap2だが、現在はベータバージョンであり、今後変更される可能性もある。

Github

git clone https://github.com/yuxuanyuan/WGAVarHunter
cd WGAVarHunter/linux/
chmod +x WGAVHunter

> ./WGAVHunter -h

----------------------------------------------------------------------------------------------------

Program: WGAVHunter

Version: 0.1.0

Author: Andy Yuan (yuxuan.yuan@outlook.com)

----------------------------------------------------------------------------------------------------

Synopsis: Discover genomic variants based on whole genome alignment through an efficient way

USAGE:

WGAVHunter [OPTIONS] -r <REFERENCE> -q <QUERY>... -o <OUTDIR>

OPTIONS:

-r <REFERENCE> A reference fasta file

-q <QUERY>... Query fasta file(s). Can be single or multiple

-n <N_PLOIDY> Ploidy level of the species [default: 2]

-w <WINDOW_SIZE>... Window size(s) used to split the query fasta (kb). Can be single

or multiple values [default: 500]

-P <PERCENTAGE> Percentage (%) of adjacent windows overlapped [default: 10]

-a <ALIGNER> Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]

-A <ALIGNER_SETTINGS> Aligner parameter settings in "" [default: "-x asm20"]

-u <USE_SPLIT> Use 'split-prefix' for (minimap2|winnowmap). Could be pretty slow

and storage demanding if the genome size is big [default: false]

-c <CHUNK_SIZE> Chunk size (kb) used to parse each chromosome [default: 1000]

-R <REMOVE_UNQUALIFIED> Remove query seq with less than n (bp) aligned [default: 1000]

-m <MAP_QUALITY> Mapping quality used for variant calling [default: 30]

-s <CALL_SNVS> Call single nucleotide variants (SNVs) [default: true]

-I <CALL_SMALL_INDELS> Call small indels [default: true]

-S <CALL_SVS> Call structural variants (SVs) [default: true]

-N <NOVEL_REGIONS> Report novel genomic regions in the input fastas [default: true]

-M <MAX_INDEL_SIZE> Maximum small indel size (bp) called [default: 49]

-d <DEFAULT_SV_SIZE> Minimum SV size (bp) called [default: 50]

-D <DIST_DUP> Maximum allowed distance (bp) between aligned query coordinates

for duplication calling [default: 1000]

-T <TRANS_SIZE> Minimum translocation size (kb) called [default: 10]

-t <THREADS> Number of threads [default: 4]

-p <PREFIX> Prefix of the output files [default: WGAVHunter]

-o <OUTDIR> Output directory

-i <INTER_DIR> Intermediate folder [default: $OUTDIR/tmp]

-k <KEEP_INTER> Keep intermediate folder and content [default: false]

-e <ENABLE_DEBUG> Enable debug mode [default: false]

-h, --help Print help information

-V, --version Print version information

実行方法

fasta形式のリファレンス配列と比較するターゲット配列を指定する。

WGAVHunter -r ref.fa -q qry.fa -o .

-r A reference fasta file
-q Query fasta file(s). Can be single or multiple
-a Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]
-t Number of threads [default: 4]
-p Prefix of the output files [default: WGAVHunter]
-o Output directory

出力例

使用する場合はQ＆Aも確認しておいて下さい。

引用

GitHub - yuxuanyuan/WGAVarHunter: Fast and accurate genetic variation identification through whole genome alignment

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

全ゲノムアライメントからバリアントを報告する WGAVarHunter