LTRレトロトランスポゾンは、2つの類似したロングターミナルリピート(LTR)を含む可動性遺伝因子の一種である。現在、LTRレトロトランスポゾンは、主に従来の相同性検索の手法で真核生物のゲノムにアノテーションされている。そのため、既知の因子のアノテーションに限定されている。本論文では、既知の因子のライブラリに頼ることなく、新しいLTRレトロトランスポゾンを同定することができるde novoの計算手法を報告する。具体的には、近似文字列マッチング技術とタンパク質ドメイン解析を用いて、無傷のLTRレトロトランスポゾンを同定した。さらに、プロファイル隠れマルコフモデル(pHMM)を用いて、部分的に削除されたLTRやソロのLTRを同定する。その結果、この方法は、すべてのタイプのLTRレトロトランスポゾンを新規に同定することができる。この方法を、C. elegans vs. C. briggsae、D. melanogaster vs. D. pseudoobscuraの2組の真核生物ゲノムでテストした。 線虫やD. melanogasterのLTRレトロトランスポゾンは、従来のアノテーション方法で集中的に研究されてきた。本研究では、これまでの研究と比較して、新たな無傷のLTRレトロエレメントと、新たな推定ファミリーを発見した。このことは、よく研究されている生物であっても、まだ発見されていない新しいレトロエレメントがあることを意味しているかもしれない。本手法の感度と精度を評価するために、本結果を、全長のLTRレトロトランスポゾンを主に同定する既報の手法であるLTR_STRUCと比較した。その結果、どちらの方法も同等の数のLTRレトロエレメントを同定することができた。しかし、LTR_STRUCTが約1/3の因子を見逃したのに対し、LTRpredはC. elegansのほぼ全ての既知の因子を同定することができた。また、D. melanogasterのゲノムにおいて、LTR_STRUCTよりも多くの既知のLTRレトロエレメントを同定することができた。また、完全にはFinishしていない他の2つのゲノム、C. briggsaeとD. pseudoobscuraにおいても、いくつかのLTRレトロエレメントを同定した。一方、従来の方法では、これらの因子を同定することができなかった。最後に、同定された因子の系統的な分布と染色体上の分布について考察する。
Githubより
転移可能な因子(TE)は、真核生物のゲノムの大部分を占めている。かつてTEは、生存率を高めるために宿主のゲノムに入り込むことができる利己的な可動性因子と考えられていた。そのため、TEは宿主ゲノムにジャンクDNAの痕跡を残し、通常、新しいゲノムの配列決定、アセンブル、アノテーションを行う際の副産物とみなされていた。しかし、この図式は徐々に変わりつつあり(Drost & Sanchez, 2019)、TEは多様な新規表現型の生成に関与していることが示されている。
今日、可動性因子のde novo検出は、ゲノムアセンブリ内の既知の可動性因子に関連することができるあらゆるタイプの繰り返し配列、TEファミリー、またはレムナントDNA遺伝子座を検出しようとするアノテーションツールによって実行されます。このような作業の主な目的は、TEに関連する可能性のある遺伝子座を最大限に引き出すことである。このようなアノテーションが成功すれば、宿主のゲノムをマスクしたり、宿主の遺伝子に焦点を当てた古典的な(フィロ)ゲノミクス研究を行うことができます。
LTRpredパイプラインは、他のすべてのアノテーションツールとは異なる目的を持っています。特にLTRレトロトランスポゾンに焦点を当て、機能的で移動可能な因子のみをアノテーションすることを目的としています。このようなアノテーションは、真核生物のゲノムにおけるレトロトランスポゾンの活動を研究し、特定のレトロトランスポゾンファミリーが人為的に活性化され、ゲノムをより高速に変異させるために利用できるかどうかを理解するために非常に重要です。LTRpredは、fasta形式の任意のゲノムアセンブリファイルを入力とし、機能的で潜在的に移動可能なLTRレトロトランスポゾンの詳細なアノテーションを生成します。
Reference
https://hajkd.github.io/LTRpred/reference/index.html
Tutorial
Introduction to LTRpred • LTRpred
インストール
https://hub.docker.com/r/drostlab/ltrpred_rstudio
配布されているRstudioのdockerイメージを使う。
docker pull drostlab/ltrpred_rstudio
docker run -e PASSWORD=ltrpred --rm -p 8787:8787 -ti drostlab/ltrpred_rstudio
http://localhost:8787 にアクセスする。
Username: rstudio
Password: ltrpred
デモデータのラン
LTRpred関数を使用し、デフォルトのパラメータで実行する。
# Perform de novo LTR transposon prediction for the Human Y chromosome
LTRpred::LTRpred(genome.file = system.file("Hsapiens_ChrY.fa", package = "LTRpred"))
結果はMore => exportからダウンロードできる。
出力
Hsapiens_ChrY_LTRpred_DataSheet.tsv
出力される内容はチュートリアル中で説明されています。
https://hajkd.github.io/LTRpred/articles/Introduction.html#ltrpred-output
実際のランではゲノムをアップロード後、genome.file = でユーザーのfastaファイルのパスを指定する。
LTRpred::LTRpred(genome.file = "input_genome.fasta")
メタゲノム向けの関数LTRpred.metaも実装されています。
引用
De novo identification of LTR retrotransposons in eukaryotic genomes
Mina Rho, Jeong-Hyeon Choi, Sun Kim, Michael Lynch, Haixu Tang
BMC Genomics. 2007 Apr 3;8:90