macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

全ゲノムアライメントからバリアントを報告する WGAVarHunter

 

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。

現在はバイナリのみ公開されています。試してみます。

 

Githubより

このプログラム;Welcome to Whole Genome Alignment-based Variation Hunter(WGAVarHunter)はRustで書かれており、samtools, sequence aligner minimap2, winnowmap, unimap, wfmashのいずれかが必要です。WGAVHunterを使用する前に、必要なツールをインストールする必要があります。

 

 

インストール

ubuntu18でテストした。samtoolsに加えて、 minimap2, winnowmap, unimap, wfmashのいずれかのアライナーのPATHが通っている必要がある。アライナーのデフォルトはminimap2だが、現在はベータバージョンであり、今後変更される可能性もある。

Github

git clone https://github.com/yuxuanyuan/WGAVarHunter
cd WGAVarHunter/linux/
chmod +x WGAVHunter

> ./WGAVHunter -h

----------------------------------------------------------------------------------------------------

Program: WGAVHunter

Version: 0.1.0

Author:  Andy Yuan (yuxuan.yuan@outlook.com)

----------------------------------------------------------------------------------------------------

Synopsis: Discover genomic variants based on whole genome alignment through an efficient way

 

USAGE:

    WGAVHunter [OPTIONS] -r <REFERENCE> -q <QUERY>... -o <OUTDIR>

 

OPTIONS:

    -r <REFERENCE>                 A reference fasta file

    -q <QUERY>...                  Query fasta file(s). Can be single or multiple

    -n <N_PLOIDY>                  Ploidy level of the species [default: 2]

    -w <WINDOW_SIZE>...            Window size(s) used to split the query fasta (kb). Can be single

                                   or multiple values [default: 500]

    -P <PERCENTAGE>                Percentage (%) of adjacent windows overlapped [default: 10]

    -a <ALIGNER>                   Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]

    -A <ALIGNER_SETTINGS>          Aligner parameter settings in "" [default: "-x asm20"]

    -u <USE_SPLIT>                 Use 'split-prefix' for (minimap2|winnowmap). Could be pretty slow

                                   and storage demanding if the genome size is big [default: false]

    -c <CHUNK_SIZE>                Chunk size (kb) used to parse each chromosome [default: 1000]

    -R <REMOVE_UNQUALIFIED>        Remove query seq with less than n (bp) aligned [default: 1000]

    -m <MAP_QUALITY>               Mapping quality used for variant calling [default: 30]

    -s <CALL_SNVS>                 Call single nucleotide variants (SNVs) [default: true]

    -I <CALL_SMALL_INDELS>         Call small indels [default: true]

    -S <CALL_SVS>                  Call structural variants (SVs) [default: true]

    -N <NOVEL_REGIONS>             Report novel genomic regions in the input fastas [default: true]

    -M <MAX_INDEL_SIZE>            Maximum small indel size (bp) called [default: 49]

    -d <DEFAULT_SV_SIZE>           Minimum SV size (bp) called [default: 50]

    -D <DIST_DUP>                  Maximum allowed distance (bp) between aligned query coordinates

                                   for duplication calling [default: 1000]

    -T <TRANS_SIZE>                Minimum translocation size (kb) called [default: 10]

    -t <THREADS>                   Number of threads [default: 4]

    -p <PREFIX>                    Prefix of the output files [default: WGAVHunter]

    -o <OUTDIR>                    Output directory

    -i <INTER_DIR>                 Intermediate folder [default: $OUTDIR/tmp]

    -k <KEEP_INTER>                Keep intermediate folder and content [default: false]

    -e <ENABLE_DEBUG>              Enable debug mode [default: false]

    -h, --help                     Print help information

    -V, --version                  Print version information

 

 

実行方法

fasta形式のリファレンス配列と比較するターゲット配列を指定する。

WGAVHunter -r ref.fa -q qry.fa -o .
  • -r     A reference fasta file
  • -q    Query fasta file(s). Can be single or multiple
  • -a    Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]
  • -t     Number of threads [default: 4]
  • -p    Prefix of the output files [default: WGAVHunter]
  • -o    Output directory

 

出力例

 

使用する場合はQ&Aも確認しておいて下さい。

引用

GitHub - yuxuanyuan/WGAVarHunter: Fast and accurate genetic variation identification through whole genome alignment

 

関連