Long terminal repeats retrotransposonsをゲノム配列からde novoで発見する LtrDetector

　以前は「ジャンクDNA」と考えられていたゲノムの遺伝子間領域の配列は、生物学者の間でますます注目を集めている。これらの領域の特に顕著な特徴は、一種のリピート配列である転移因子（TE）の普及率である。 TEには、RNAを使用して複製して自分自身を「コピーアンドペースト」するクラスIエレメントと、DNAを中間体として使用する「カットアンドペースト」メカニズムを介して複製するクラスIIエレメントがある[ref.1]。 Barbara McClintock (wiki)は、トウモロコシのゲノムを研究しながら1940年代と1950年代にトランスポゾンを発見した[ref.2]。 TEはすべての真核生物に共通しており、ヒトゲノムの約45％、トウモロコシや小麦などの植物の最大80％を占めている[ref.3、4]。

　TEにはいくつかの重要な機能がある。 BennetzenとWangは、植物TEの既知の機能を強調している[ref.5]。トランスポゾンは植物ゲノムのサイズに影響する主な要因である[ref.6、7、8]。ストレスの多い条件下で、それらはゲノムを再編成できる[ref.9、10、11]。 TEは遺伝子の再配置[ref.12、13]、および新しい遺伝子生成[ref.14、15]および新しい疑似遺伝子[ref.16、17]生成において役割を果たす。それらは動原体機能に寄与しうる[ref.18、19]。 TEは、以下を含むいくつかのメカニズムを介して近くの遺伝子の発現を調節できる。（i）プロモーターおよびエンハンサーなどの調節エレメントを近くの遺伝子に提供する［ref.14、20、21、22］。（ii）自分自身を遺伝子に挿入し、次にエピジェネティックな調節システムを標的にする[ref.23]。（iii）宿主遺伝子に特異的なmall interfering RNAを産生する［ref.24、25、26］。（iv）宿主遺伝子を調節する新しいマイクロRNA遺伝子を生成する［ref.27、28、29］。トランスポゾンは、トランスポゾンタギングと呼ばれる技術において植物遺伝子をクローニングするのに利用されてきた［ref.30、31、32］。それらはまた、作物の生産性を高めることにおいて新たなフロンティアになる可能性を秘めている[ref.33、34]。

　Long Terminal Repeat retrotransposons (LTR-RTs) は、レトロウイルスに関連するクラスＩ転移因子の特に興味深いタイプである。 LTR-RTは植物に広く見られ、主要な進化メカニズムの1つと考えられている[ref.35]。Gonzalezらはそれらの機能のいくつかを要約している[ref.36]。 LTR-RTは遺伝子に隣接、またはその内部に挿入されオルタナティブスプライシングを促進でき[ref.37]、組換え、エピジェネティック制御[ref.38、39]、および他の形態の調節[ref.36]において役割を果たす。 LTR-RTは、損傷を受けた植物組織における防御機構を促進する調節モチーフとともに発見されている[ref.40]。それらは進化系統学のゲノムマーカーとしても役立つ[ref.41]。

　LTR-RTは、植物においてその特徴的なダイレクトリピート - 通常は100〜6000塩基対（bp）の長さがある、によって名付けられている。これらのダイレクトリピートは内部コード領域（gagおよびpol遺伝子）を囲む。 LeratはLTR-RTのサイズ範囲として5 kbp〜9 kbpを推奨している[ref.1]が、植物LTR-RTの共通配列に基づいて、それらの長さは20 kbpを超えることがある。

　LTR-RTを含むリピート配列の位置を特定するためには、計算ツールが非常に重要である。ツールは、コンセンサス配列データベースを利用してリピートを検索するナリッジベースのツールと、ターゲット配列に関する予備知識なしにリピートを検索するために内部配列比較および構造的特徴を使用するde-novoツールに大別できる[ref.1]。

　ナリッジベースの方法には、NCBI BLAST [ref.42] RepeatMasker （http://www.repeatmasker.org）、およびCensor （https://www.girinst.org/downloads/software/censor/）などのよく知られているバイオインフォマティクスソフトウェアが含まれる。それらは、LTR-RTを含む全てのタイプの既知のTEを見つけるのに利用することができる。しかしながら、リピートエレメントの配列が未知であるならば、これらのようなツールはゲノム中にコピーを見つけることができない。

　すべてのタイプのTEをde novoで発見するため、いくつかの方法が開発されている［ref.43-46］。 LTR-RTを検出するために特別に構築されたツールには、LTR_STRUC [ref.47]、LTR_seq [ref.48]、MGEScan-LTR [ref.49]、LTR_Finder [ref.50]、およびLTRharvest [ref.51]がある。 LTR_retrieverは後処理ツールで、de-novoアプローチの精度を上げるのに役立つかもしれない[ref.52]。 LTRsift [ref.53]およびInpactor [ref.54]は、LTR-RTをファミリーに分類し、追加の分析を可能にする他の後処理ツールである。

　これらのツールは、さまざまなユーザビリティ、スケーラビリティ、および精度の問題に直面している。たとえば、LTR-RTを検索するための先駆的なツールの1つであるLTR_STRUCは、古いバージョンのWindows専用に開発されたため、今日では使用が困難である。いくつかのツールはそれらのインストールを非常に複雑にする外部の依存関係を持っている。それらのどれも現代のパーソナルコンピュータの並列マルチコアアーキテクチャを利用しない。大麦ゲノムのようなより大きな植物ゲノムを通常のパーソナルコンピュータ上で処理するのに苦労するかもしれない。いくつかのツールは種固有のパラメータに非常に敏感である。すべてが偽陽性予測を生成し、既知のLTRをすべて取得するわけではない。最後に、これらのツールのほんの一部だけが後処理の手動レビューを念頭に置いて設計されている。

　何千もの植物ゲノムが現在そして近い将来にシーケンシングされる。植物ゲノムのための10KPプロジェクト（https://db.cngb.org/10kp/）およびEarth Biogenome Project（https://www.earthbiogenome.org）は多数の植物ゲノムのシーケンシングを目的としている。ゲノムデータのこの拡大は、新しい植物ゲノム中のLTR-RTを検出するのを助けるための現代のソフトウェアツールに対する緊急の必要性を生み出している。そのようなツールは現在利用可能なツールの制限を直すべきである。

　この目的のために、LTR-RTを検出するソフトウェアツールであるLtrDetectorを開発した。 LtrDetectorはsignal processingに触発された技術に依存する。外部の依存関係がないため、インストールは簡単である。パーソナルコンピュータで利用可能な高度なハードウェアを利用して、LtrDetectorは複数コアで同時に実行でき、種特異的ではない。LtrDetectorは関連ツールより既知のLTR-RTにsensitiveで、大麦ゲノムのようなより大きなゲノムを処理することができる。さらに、新たに配置されたLTR-RTの手作業によるレビュー/アノテーション付けを容易にするための画像を生成することができる。（一部略）

　LtrDetectorのパフォーマンスを他の関連ツールのパフォーマンスと比較すると、LtrDetectorがLTR-RTの検出に現在使用可能な最高のde-novoツールであることがわかる。これらの結果は合成の配列および複数のゲノムについて得られた。

インストール

ubuntu16.04でテストした（docker使用、ホストOS macos10.14）。

依存

You must have the GNU compiler.

本体　Github

git clone https://github.com/TulsaBioinformaticsToolsmith/LtrDetector.git
cd LtrDetector/src/
make bin
make tr -j
cd ../bin

> ./LtrDetector -help

# ./LtrDetector -help

| -arg | Description | Default |

| ---------------- | ----------- | ------- |

| -fasta | Directory containing files to be scanned. Files must have .fa extension. | required |

| -destDir | Output directory where the results are stored. | required |

( IMPORTANT: Files under the output directory are deleted at the start of the program.)

| -minLen | Minimum length of complete LTR-RTs. Constrains scoring system and filters. | 400 |

| -maxLen | Maximum length of complete LTR-RTs. Constrains scoring system and filters. | 22000 |

| -minLenLTR | Minimum length of LTR direct repeat. Constrains filters. | 100 |

| -maxLenLTR | Maximum length of LTR direct repeat. Constrains filters. | 6000 |

( Note run time is highly dependent on this parameter, as it provides an upper bound for alignment length in the boundary adjustment step.)

| -id | Minimum identity [0-100] between 5' and 3' LTRs. | 85 |

| -k | Length of k-mers to adjust scoring system. Tradeoff between noise and resistance to mutation. | 13 |

| -plateauSeed | Minimum length of plateaus to be initially considered 'Keep' in merging step. | 10 |

| -nThreads | Number of cores to be used. | 1 |

| -gapTol | Number of base pairs that two plateaus can differ by in height/distance. Affects both plateau merging and pairing steps. | 200 |

|-seqLevel| Forces parallel execution on sequences within multi-FASTA file. Loads all sequences into memory | disabled |

| -rawScores | prints the raw scores to a file called xxxxRawScores.txt under the output directory. | disabled |

| -cleanedScores | prints the scores after merging to a file called xxxxCleanedScores.txt under the output directory. | disabled |

| -nested | searches for nested elements. Results are stored in seperate files (marked as xxxxNestedDetector.bed) under the output directory | disabled |

| -bedFormat | prints BED format without additional annotations (PPT and TSD). | disabled |

| -help | prints this help message. | disabled |

実行方法

入力のFASTA ディレクトリと出力ディレクトリを指定する。FASTAファイルの拡張子は.faである必要がある。

LtrDetector -fasta input_fasta_dir/ -destDir out -nThreads 8

-fasta Directory containing files to be scanned. Files must have .fa extension.
-destDir Output directory where the results are stored.
-nThreads Number of cores to be used.

出力は単独のbedファイルとなる。BED5やBED12ではなく以下の18カラムを持つ。

LtrDetector output is formatted as a BED file with 18 columns, which correspond to:

Sequence identifier.
Retrotransposon start coordinate within sequence.
Retrotransposon end coordinate within sequence.
Left LTR start coordinate.
Left LTR end coordinate.
Right LTR start coordinate.
Right LTR end coordinate.
% Identity between left and right LTRs (0-100).
Left Target Site Duplication start coordinate.
Left Target Site Duplication end coordinate.
Right Target Site Duplication start coordinate.
Right Target Site Duplication end coordinate.
Polypurine Tract start coordinate.
Polupurine Tract end coordinate.
Strand on chromosome (+ or -).
Percentage of purines in Polypurine Tract (0-100).
TG motif start coordinate.
CA motif end coordinate.