macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ロングリードからtamdem repeatを見つける TideHunter

 

TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Technologies(ONT)のシーケンスデータと最大20%のエラー率で連携し、あらゆるサイズの繰り返しパターンを検出することができる。

 

インストール 

macos10.14のminiconda3-4.3.14環境でテストした。

Github

git clone --recursive https://github.com/yangao07/TideHunter.git
cd TideHunter
make

./bin/TideHunter

# ./bin/TideHunter 

 

[main] Error: please specify an input file.

 

TideHunter: Tandem repeat detection and consensus calling from noisy long-reads

 

Version: 1.0

Contact: yangao07@hit.edu.cn

 

Usage:   TideHunter [options] in.fa/fq > cons.fa

 

Options: 

    Seeding:

         -k --kmer-length [INT]    k-mer length (no larger than 16). [8]

         -w --window-size [INT]    window size. [1]

         -s --step-size   [INT]    step size. [1]

         -H --HPC-kmer             use homopolymer-compressed k-mer. [False]

    Tandem repeat criteria:

         -c --min-copy    [INT]    minimum copy number of tandem-repeats. [2]

         -e --max-diverg  [INT]    maximum allowed divergence rate between two consecutive repeats. [0.25]

         -p --min-period  [INT]    minimum period size of tandem repeat. (>=2) [30]

         -P --max-period  [INT]    maximum period size of tandem repeat. (<=4294967295) [100K]

    Adapter sequence:

         -5 --five-prime  [STR]    5' adapter sequence (sense strand). [NULL]

         -3 --three-prime [STR]    3' adapter sequence (anti-sense strand). [NULL]

         -a --ada-mat-rat [FLT]    minimum match ratio of adapter sequence. [0.80]

    Output:

         -o --cons-out    [STR]    output file. [stdout]

         -l --longest              only output the consensus of the longest tandem repeat. [False]

         -F --full-len             only output the consensus that is full-length. [False]

         -f --out-fmt     [INT]    output format. [1]

                                       1: FASTA

                                       2: Tabular

    Computing resource:

         -t --thread      [INT]    number of threads to use. [1]

 

[main] Real time: 0.000 sec; CPU: 0.000 sec; Peak RSS: 0.002 GB

 

 

テストラン 

ロングリードのfasta or fastqを指定し(.gzにも対応)、consensus fastaを出力する。

./bin/TideHunter ./test_data/test_50x4.fa > cons.fa

出力

# cat cons.fa 

>test_50x4_cons0_300_51_250_50_4.0_0

CGATCGATCGGCATGCATGCATGCTAGTCGATGCATCGGGATCAGCTAGT

 fastaヘッダの名前は以下の規則に従っている。

>readName_consN_readLen_start_end_consLen_copyNum_fullLen

例えばstartとendはtandem repeatのロングリード内での開始位置と終了位置をそれぞれ表す。copyNumはリピートの繰り返し回数になる。

f:id:kazumaxneo:20190327201951p:plain

Githubより

 

結果をTSV形式で出力する。

./bin/TideHunter -f 2 ./test_data/test_1000x10.fa > cons.out
  •  -f  <1 | 2>  output format. 1: FASTA, 2: Tabular

 

 

引用

https://github.com/Xinglab/TideHunter

Yan Gao yangao07@hit.edu.cn

Yadong Wang ydwang@hit.edu.cn

Yi Xing XINGYI@email.chop.edu