TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Technologies(ONT)のシーケンスデータと最大20%のエラー率で連携し、あらゆるサイズの繰り返しパターンを検出することができる。
インストール
macos10.14のminiconda3-4.3.14環境でテストした。
git clone --recursive https://github.com/yangao07/TideHunter.git
cd TideHunter
make
> ./bin/TideHunter
# ./bin/TideHunter
[main] Error: please specify an input file.
TideHunter: Tandem repeat detection and consensus calling from noisy long-reads
Version: 1.0
Contact: yangao07@hit.edu.cn
Usage: TideHunter [options] in.fa/fq > cons.fa
Options:
Seeding:
-k --kmer-length [INT] k-mer length (no larger than 16). [8]
-w --window-size [INT] window size. [1]
-s --step-size [INT] step size. [1]
-H --HPC-kmer use homopolymer-compressed k-mer. [False]
Tandem repeat criteria:
-c --min-copy [INT] minimum copy number of tandem-repeats. [2]
-e --max-diverg [INT] maximum allowed divergence rate between two consecutive repeats. [0.25]
-p --min-period [INT] minimum period size of tandem repeat. (>=2) [30]
-P --max-period [INT] maximum period size of tandem repeat. (<=4294967295) [100K]
Adapter sequence:
-5 --five-prime [STR] 5' adapter sequence (sense strand). [NULL]
-3 --three-prime [STR] 3' adapter sequence (anti-sense strand). [NULL]
-a --ada-mat-rat [FLT] minimum match ratio of adapter sequence. [0.80]
Output:
-o --cons-out [STR] output file. [stdout]
-l --longest only output the consensus of the longest tandem repeat. [False]
-F --full-len only output the consensus that is full-length. [False]
-f --out-fmt [INT] output format. [1]
1: FASTA
2: Tabular
Computing resource:
-t --thread [INT] number of threads to use. [1]
[main] Real time: 0.000 sec; CPU: 0.000 sec; Peak RSS: 0.002 GB
テストラン
ロングリードのfasta or fastqを指定し(.gzにも対応)、consensus fastaを出力する。
./bin/TideHunter ./test_data/test_50x4.fa > cons.fa
出力
# cat cons.fa
>test_50x4_cons0_300_51_250_50_4.0_0
CGATCGATCGGCATGCATGCATGCTAGTCGATGCATCGGGATCAGCTAGT
fastaヘッダの名前は以下の規則に従っている。
>readName_consN_readLen_start_end_consLen_copyNum_fullLen
例えばstartとendはtandem repeatのロングリード内での開始位置と終了位置をそれぞれ表す。copyNumはリピートの繰り返し回数になる。
Githubより
結果をTSV形式で出力する。
./bin/TideHunter -f 2 ./test_data/test_1000x10.fa > cons.out
- -f <1 | 2> output format. 1: FASTA, 2: Tabular
引用
https://github.com/Xinglab/TideHunter
Yan Gao yangao07@hit.edu.cn
Yadong Wang ydwang@hit.edu.cn
Yi Xing XINGYI@email.chop.edu