macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

indelエラーの多いロングリードからタンデムリピートを探す Noise-cancelling repeat finder

 

 ロングタンデムリピート(LTR)アレイはヘテロクロマチンと関連しており、ヒトゲノムで重要な役割を果たしている。たとえば、(TTAGGG)n TRはテロメアを保護し(Blackburn and Gall、1978)、(AATGG)nリピートはヒートショックレスポンスに関与し(Goenka et al、2016)、ヘテロクロマチン関連TRの長さは集団間( Altemose et al、2014; Wevrick and Willard、1989)、および加齢と環境曝露による変化(Goenka et al、2016; Zhang et al、2015)で異なる。 TRのこれらの重要な機能にもかかわらず、完全な長さをキャプチャすることができる実験的および計算技術の不足のため、それらの長さのばらつきは研究されていない。

 LTRはショートシーケンスリードでは研究できないが、ロングリードテクノロジー(Pacific Biosciences、またはPacBio、およびOxford Nanopore、またはNanopore)でプロファイルできる。ただし、このような技術には独特のエラープロファイルがあるため、解読が困難である(論文の以下を参照)。さらに、それらはリファレンスゲノムおよびアセンブリからしばしば欠落している(Peona et al、2018)。著者らの知る限り、エラーが発生しやすいロングリードでTRアレイを識別するツールは現在存在しない。主にショートリードまたはアセンブルされたゲノムで動作するように開発された同様の問題を解決するツールは、このユースケースに適用する場合に制限がある(Lower et al、2018)。挿入と欠失の不等レートを考慮していないものもある[例:Tandem repeat finder、またはTRF(Benson、1999)];その他では、高いシーケンスエラー率を許容指定ない(例:ショートリードマッパー)。汎用のアライナー、例えばMinimap2(Li、2018)は、ロングリードシーケンステクノロジのパラメータを使用しても、TRを見つけるようには設計されていない。

 エラーが発生しやすいロングシーケンスからユーザー指定のTRアレイを直接識別する既存のツールの欠点に対処するために、Noise-Cancelling Repeat Finder(NCRF)を開発した。 NCRFは、ロングシーケンシングデータで観察される短い挿入と欠失の高い不均等なレートをサポートする。その結果、NCRFのパフォーマンスは他のツールよりも優れている。

 


インストール

macos10.14でテストした。

依存

  • gcc or similar C compiler and linker
  • python (tested with version 2.7, not likely to work with python 3)

本体 GIhtub

git clone --branch v1.01.00 https://github.com/makovalab-psu/NoiseCancellingRepeatFinder.git
cd NoiseCancellingRepeatFinder
make

> python ncrf_cat.py

$ python ncrf_cat.py

you have to give me at least one file

 

usage: ncrf_cat <file1> [<file2> ...] [--markend]

  <file1>    an output file from Noise Cancelling Repeat Finder

  <file2>    another output file from Noise Cancelling Repeat Finder

  --markend  assume end-of-file markers are absent in the input, and add an

             end-of-file marker to the output

             (by default we require inputs to have proper end-of-file markers)

 

Concatenate several output files from Noise Cancelling Repeat Finder.  This

is little more than copying the files and adding a blank line between the

files.

 

It can also be used to verify that the input files contain end-of-file markers

i.e. that they were not truncated when created.

 

 

テストラン

FASTA配列を指定する。

cat reads.fa | ./NCRF GGCAT > example.ncrf

 

引用

Noise-cancelling repeat finder: uncovering tandem repeats in error-prone long-read sequencing data
Robert S Harris, Monika Cechova, Kateryna D Makova
Bioinformatics,  Published: 10 July 2019 Article history