植物ゲノムのLTRレトロトランスポゾンのアノテーションを行うパイプライン DANTEとDANTE_LTR

　ロングターミナルリピート（LTR）レトロトランスポゾンは、ほとんどの植物種のゲノムにおいて、反復DNAエレメントの主要なクラスである。配列決定された植物ゲノムの数は加速度的に増加しており、植物ゲノムアセンブリ中のLTRレトロトランスポゾンの効率的なアノテーションと分類を可能にする計算ツールが必要とされている。ここでは、保存されたタンパク質ドメインの配列に基づいてこれらのエレメントを高感度に検出するDANTE（Domain-based ANnotation of Transposable Elements）を紹介する。同定されたタンパク質ドメインは、DANTE_LTRパイプラインによって使用され、隣接するゲノム領域における長い末端反復などの構造的特徴を検索することによって、完全なエレメント配列にアノテーションを付ける。さらに、ドメイン配列を利用することで、エレメントを系統に分類することが可能になり、スーパーファミリーに基づく従来の粗い分類方法と比較して、より詳細なアノテーションが可能になる。93の植物ゲノムのLTR-レトロトランスポゾンをアノテーションし、その結果をいくつかの確立されたパイプラインと比較することで、この戦略の効率と精度を実証した。DANTE_LTRはより多くのLTRレトロトランスポゾンを見つけることができる。DANTEとDANTE_LTRは使いやすいGalaxyツールとして提供されており、公開サーバー(https://repeatexplorer-elixir.cerit-sc.cz)を介してアクセスして使用できる。また、ローカルのGalaxyインスタンスにインストールしたり、またはコマンドからも使用できる。

インストール

condaで環境を作って導入した。

依存

python3.4 or higher with packages:
numpy
biopython
lastal 744 or higher
ProfRep/DANTE modules:
configuration.py

本体 Github

#dante（ここでは古い3.6の環境を作ったがより最近のバージョンでも動作する）
mamba create -n dante python=3.6 -y
conda activate dante
mamba install -c conda-forge -c bioconda -c petrnovak dante -y

#dante_ltr
mamba create -n dante_ltr -c bioconda -c conda-forge -c petrnovak dante_ltr -y

> dante -h

$ dante -h

usage: dante [-h] -q QUERY [-D {Viridiplantae_v3.0,Metazoa_v3.1,Viridiplantae_v2.2,Metazoa_v3.0}] -o DOMAIN_GFF [-dir OUTPUT_DIR] [-M {BL80,BL62,MIQS}] [-thsc THRESHOLD_SCORE] [-wd WIN_DOM] [-od OVERLAP_DOM] [-c CPU] [-e EXTRA_DATABASE]

Script performs similarity search on given DNA sequence(s) in (

multi)fasta against our protein domains database of all Transposable element for

certain group of organisms (Viridiplantae or Metazoans). Domains are subsequently

annotated and classified - in case certain domain has multiple annotations

assigned, classification is derived from the common classification level of all of

them. Domains search is accomplished engaging LASTAL alignment tool.

options:

-h, --help show this help message and exit

-D {Viridiplantae_v3.0,Metazoa_v3.1,Viridiplantae_v2.2,Metazoa_v3.0}, --database {Viridiplantae_v3.0,Metazoa_v3.1,Viridiplantae_v2.2,Metazoa_v3.0}

-o DOMAIN_GFF, --domain_gff DOMAIN_GFF

output domains gff format (default: None)

-dir OUTPUT_DIR, --output_dir OUTPUT_DIR

specify if you want to change the output directory (default: .)

-M {BL80,BL62,MIQS}, --scoring_matrix {BL80,BL62,MIQS}

specify scoring matrix to use for similarity search (BL80, BL62, MIQS) (default: BL80)

-thsc THRESHOLD_SCORE, --threshold_score THRESHOLD_SCORE

percentage of the best score in the cluster to be tolerated when assigning annotations per base (default: 80)

-wd WIN_DOM, --win_dom WIN_DOM

window to process large input sequences sequentially (default: 10000000)

-od OVERLAP_DOM, --overlap_dom OVERLAP_DOM

overlap of sequences in two consecutive windows (default: 10000)

-c CPU, --cpu CPU number of threads to use (default: 1)

-e EXTRA_DATABASE, --extra_database EXTRA_DATABASE

extra database to use for similarity search (default: None)

required named arguments:

-q QUERY, --query QUERY

input DNA sequence to search for protein domains in a fasta format. Multifasta format allowed. (default: None)

Extra database format:

Extra database is FASTA file with protein domains sequences. This file is appended

to selected REXdb database. Header of sequences must contain information about

classification compatible with REXdb classification system and also protein domain

type. Example of FASTA header:

>MNCI01000001.1:152848-153282 RH Class_I|LTR|Ty3/gypsy|non-chromovirus|OTA|Tat

CQEALDNIMRELAQVSTVYSSQNDKSFYIYLTISDisissllcQKLDDGVELsvyylsha

litYET*YIEVEKFFLALVVSFKK*rnylfrshINVICKDKVLRDITTNIYKNSRIA**K

DILDEFGfhyisqa*TKGQVIATQLT

where:

MNCI01000001.1:152848-153282 is unique identifier of sequence in database.

RH is type of protein domain.

> dante_ltr -h

usage: dante_ltr [-h] -g GFF3 -s REFERENCE_SEQUENCE -o OUTPUT [-c CPU] [-M MAX_MISSING_DOMAINS] [-L MIN_RELATIVE_LENGTH] [-S MAX_CHUNK_SIZE] [-v] [--te_constrains TE_CONSTRAINS] [--no_ambiguous_domains]

Tool for identifying complete LTR retrotransposons based on

analysis of protein domains identified with the DANTE tool

options:

-h, --help show this help message and exit

-g GFF3, --gff3 GFF3 gff3 file with full output from Domain Based Annotation of Transposable Elements (DANTE)

-s REFERENCE_SEQUENCE, --reference_sequence REFERENCE_SEQUENCE

reference sequence as fasta file

-o OUTPUT, --output OUTPUT

output file path and prefix

-c CPU, --cpu CPU number of CPUs

-M MAX_MISSING_DOMAINS, --max_missing_domains MAX_MISSING_DOMAINS

-L MIN_RELATIVE_LENGTH, --min_relative_length MIN_RELATIVE_LENGTH

Minimum relative length of protein domain to be considered for retrostransposon detection

-S MAX_CHUNK_SIZE, --max_chunk_size MAX_CHUNK_SIZE

If size of reference sequence is greater than this value, reference is '

'analyzed in chunks of this size. default is 100000000 '

'Setting this value too small will slow down the analysis

-v, --version show program's version number and exit

--te_constrains TE_CONSTRAINS

csv table specifying TE constraints for LTR search, template for this table

can be found in https://github.com/kavonrtep/dante_ltr/blob/main/databases/lineage_domain_order.csv

--no_ambiguous_domains

Remove ambiguous domains from analysis

実行方法

1、DANTEの実行。dante.pyスクリプトは、(multi)fasta形式のDNA配列をスキャンし、タンパク質ドメインデータベースを用いてタンパク質ドメインを検索する（出力は品質フィルタリングされていない予備的な出力）。

dante -q input.fasta -o out.gff3 -c 20

-c number of threads to use (default: 1)
-dir specify if you want to change the output directory (default: .)
-q input DNA sequence to search for protein domains in a fasta format.

* 入力fastaの配列名が複雑だとエラーを起こすので、予めシンプルな名前にリネームしておく。計算が終わると、タンパク質ドメインのGFF3が出力される。シロイヌナズナのchr1を使うと1分程度で計算が終了した。

２、DANTE_LTRの実行。DANTEで同定したタンパク質ドメインから、DANTE_LTRを使って完全なLTRレトロトランスポゾンを同定する。

conda activate dante_ltr
dante_ltr -g DANTE_output.gff3 -s sample_genome.fasta -o DANTE_LTR_annotation -M 1 -c 20

-c number of CPUs
-M MAX_MISSING_DOMAINS

シロイヌナズナのchr1を使うと1分以内に計算が終了した。

出力例

DANTE_LTR_annotation_summary_plots/

all_elements.png

Class_I_LTR_Ty1_copia_Ale_structure.png

Class_I_LTR_Ty1_copia_Ale_summary.png

他のLTRレトロトランスポゾンファミリーも同様の図が出力されている。

レポジトリより

完全なレトロトランスポゾンは、DANTEツールによって認識されたタンパク質ドメインのクラスターとして同定される。クラスター中のドメインはDANTEによって単一のレトロトランスポゾン系統に割り当てられなければならない。さらに、タンパク質ドメインの方向と順序、およびそれらの間の距離も評価される。次のステップでは、推定レトロトランスポゾンの5'と3'末端のlong terminal repeatsの存在について調べる。5'および3'末端にlong terminal repeatsが検出された場合、標的部位重複（TSD）およびプライマー結合部位（PSB）の検出が行われる。検出されたLTRレトロトランスポンは5つのカテゴリーに分類される：

タンパク質ドメインを持つエレメント、5'LTR、3'LTR、TSD、PBS - ランクはDLTP
タンパク質ドメインを持つエレメント、5'LTR、3'LTR、PBS (TSDは見つからなかった) ランクはDLP
タンパク質ドメインを持つエレメント、5'LTR、3'LTR、TSD（PBSは見つからなかった）-ランクはDTL
タンパク質ドメインを持つエレメント、5'LTRと3'LTR（PBSとTDSは見つからなかった） - ランクはDL
同じ分類のタンパク質ドメインのクラスターとしてのエレメント、LTRなし - ランクはD

LTR-RTを類似性ベースのアプローチでアノテーションを付けたい場合、dante_ltr_to_libraryスクリプトを使用してRepeatMasker用にフォーマットされたライブラリを作成できる。

論文より

植物ゲノムのLTR-RTのアノテーション用に開発された他のツールと比較して、DANTE_LTRはEDTAやInpactor2よりも感度が高く、有意に多くのエレメントを同定できることが証明された。さらにDANTE_LTRは、タンパク質ドメインのタイプや配置、LTR、TSD、PBS、TG/CA境界など、多くのパターンを組み合わせて評価することで、より特異的であることが証明された。驚くべき発見は、比較した3つのパイプラインによって生成されたLTR-RTアノテーションや、Zhouら（Zhou et al. 2021）によって生成されたアノテーションには比較的重複が少なく、ほとんどの要素が単一または少数のツールによって同定され、すべてのツールによって同時に同定された要素はまれであったことである。これは、植物ゲノムにおけるエレメントの配列および構造の変異が大きいことと、エレメントの特定の変異を同定するための比較したアプローチの効率が異なることに起因している可能性がある。この結果の重要な帰結は、植物ゲノムアセンブリのLTR-RTのアノテーションには、単一のツールではなく、異なる認識原理を実装した複数のツールを組み合わせて使用することの重要性を強調していることである。

DANTE_LTRとDANTEの出力するGFF3 formatについてはレポジトリで説明されています。確認してください。

引用

DANTE and DANTE_LTR: computational pipelines implementing lineage-centered annotation of LTR-retrotransposons in plant genomes

Petr Novak, Nina Hostakova, Pavel Neumann, Jiri Macas

bioRxiv, Posted April 19, 2024.