1000 ntを超える長いタンデムリピート拡張は疾患との関連性が示唆されているが、シークエンシンリード長が短すぎるため、ほとんどの場合、個々のヒトゲノムでは未解明のままである。しかし、新しいロングリードシークエンシング技術は、このようなリピート拡張にまたがる10,000nt以上のシングルリードを作成することができるが、これらのロングリードのエラー率は10%~20%と高く、リピートエレメントの検出を複雑にしている。さらに、タンデムリピートを見つけるための従来のアルゴリズムのほとんどは、短いタンデムリピート(1000nt未満)を見つけるために設計されており、ロングリードの高いエラー率を合理的な時間で効果的に処理することはできない。
ここでは、レピートの長さを利用したこの問題を解くための効率的なアルゴリズムを報告する。すなわち、ロングタンデムリピートは、繰り返し単位の近似コピーを何百、何千も持っているので、誤差率にもかかわらず、短いk-merの多くは、繰り返し単位の多くのコピーで誤差が発生しない。この特徴を利用して、最初にタンデムリピートを含む可能性のある領域を推定する方法を開発した。実験の結果、提案したアルゴリズムは、タンデムリピート探索プログラムとして広く用いられているTandem Repeats Finder (TRF)よりも感度の点で優れていることが示された。
インストール
git clone https://github.com/morisUtokyo/mTR.git
cd mTR/
make -j
> ./mTR -h
$ ./mTR -h
./mTR: illegal option -- h
mTR [-acp] [-m ratio] <fasta file name>
-a: Output the alignment between the input sequence and predicted tandem repeat.
-c: Print the computation time of each step.
-m ratio: Give a minimum match ratio ranging from 0 to 1.
-p: Use Pearson's correlation coefficient distance in place of Manhattan distance.
実行方法
ロングリードのfastaを指定する(fastqや圧縮ファイルには非対応)。
mTR -a -c -p -m <ratio> input.fasta
- -a Output the alignment between the input sequence and predicted tandem repeat.
- -c Print the computation time of each step.
- -m <ratio> Give a minimum match ratio ranging from 0 to 1.
- -p Use Pearson's correlation coefficient distance in place of Manhattan distance.
与えるリード数が大きすぎるとSegmentation faultになるので注意して下さい。
引用
Finding Long Tandem Repeats In Long Noisy Reads
Shinichi Morishita, Kazuki Ichikawa, Gene Myers
Bioinformatics, Published: 08 October 2020