macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

植物ゲノムのLTRレトロトランスポゾンのアノテーションを行うパイプライン DANTEとDANTE_LTR

 

 ロングターミナルリピート(LTR)レトロトランスポゾンは、ほとんどの植物種のゲノムにおいて、反復DNAエレメントの主要なクラスである。配列決定された植物ゲノムの数は加速度的に増加しており、植物ゲノムアセンブリ中のLTRレトロトランスポゾンの効率的なアノテーションと分類を可能にする計算ツールが必要とされている。ここでは、保存されたタンパク質ドメインの配列に基づいてこれらのエレメントを高感度に検出するDANTE(Domain-based ANnotation of Transposable Elements)を紹介する。同定されたタンパク質ドメインは、DANTE_LTRパイプラインによって使用され、隣接するゲノム領域における長い末端反復などの構造的特徴を検索することによって、完全なエレメント配列にアノテーションを付ける。さらに、ドメイン配列を利用することで、エレメントを系統に分類することが可能になり、スーパーファミリーに基づく従来の粗い分類方法と比較して、より詳細なアノテーションが可能になる。93の植物ゲノムのLTR-レトロトランスポゾンをアノテーションし、その結果をいくつかの確立されたパイプラインと比較することで、この戦略の効率と精度を実証した。DANTE_LTRはより多くのLTRレトロトランスポゾンを見つけることができる。DANTEとDANTE_LTRは使いやすいGalaxyツールとして提供されており、公開サーバー(https://repeatexplorer-elixir.cerit-sc.cz)を介してアクセスして使用できる。また、ローカルのGalaxyインスタンスにインストールしたり、またはコマンドからも使用できる。

 

インストール

condaで環境を作って導入した。

依存

  • python3.4 or higher with packages:
  • numpy
  • biopython
  • lastal 744 or higher
  • ProfRep/DANTE modules:
  • configuration.py

本体 Github

#dante(ここでは古い3.6の環境を作ったがより最近のバージョンでも動作する)
mamba create -n dante python=3.6 -y
conda activate dante
mamba install -c conda-forge -c bioconda -c petrnovak dante -y

#dante_ltr
mamba create -n dante_ltr -c bioconda -c conda-forge -c petrnovak dante_ltr -y

> dante -h

$ dante -h

usage: dante [-h] -q QUERY [-D {Viridiplantae_v3.0,Metazoa_v3.1,Viridiplantae_v2.2,Metazoa_v3.0}] -o DOMAIN_GFF [-dir OUTPUT_DIR] [-M {BL80,BL62,MIQS}] [-thsc THRESHOLD_SCORE] [-wd WIN_DOM] [-od OVERLAP_DOM] [-c CPU] [-e EXTRA_DATABASE]

 

Script performs similarity search on given DNA sequence(s) in (

    multi)fasta against our protein domains database of all Transposable element for 

    certain group of organisms (Viridiplantae or Metazoans). Domains are subsequently 

    annotated and classified - in case certain domain has multiple annotations 

    assigned, classification is derived from the common classification level of all of 

    them. Domains search is accomplished engaging LASTAL alignment tool.

 

    

 

options:

  -h, --help            show this help message and exit

  -D {Viridiplantae_v3.0,Metazoa_v3.1,Viridiplantae_v2.2,Metazoa_v3.0}, --database {Viridiplantae_v3.0,Metazoa_v3.1,Viridiplantae_v2.2,Metazoa_v3.0}

  -o DOMAIN_GFF, --domain_gff DOMAIN_GFF

                        output domains gff format (default: None)

  -dir OUTPUT_DIR, --output_dir OUTPUT_DIR

                        specify if you want to change the output directory (default: .)

  -M {BL80,BL62,MIQS}, --scoring_matrix {BL80,BL62,MIQS}

                        specify scoring matrix to use for similarity search (BL80, BL62, MIQS) (default: BL80)

  -thsc THRESHOLD_SCORE, --threshold_score THRESHOLD_SCORE

                        percentage of the best score in the cluster to be tolerated when assigning annotations per base (default: 80)

  -wd WIN_DOM, --win_dom WIN_DOM

                        window to process large input sequences sequentially (default: 10000000)

  -od OVERLAP_DOM, --overlap_dom OVERLAP_DOM

                        overlap of sequences in two consecutive windows (default: 10000)

  -c CPU, --cpu CPU     number of threads to use (default: 1)

  -e EXTRA_DATABASE, --extra_database EXTRA_DATABASE

                        extra database to use for similarity search (default: None)

 

required named arguments:

  -q QUERY, --query QUERY

                        input DNA sequence to search for protein domains in a fasta format. Multifasta format allowed. (default: None)

 

    Extra database format:

    Extra database is FASTA file with protein domains sequences. This file is appended 

    to selected REXdb database. Header of sequences must contain information about 

    classification compatible with REXdb classification system and also protein domain 

    type. Example of FASTA header:

    

       >MNCI01000001.1:152848-153282 RH Class_I|LTR|Ty3/gypsy|non-chromovirus|OTA|Tat

       CQEALDNIMRELAQVSTVYSSQNDKSFYIYLTISDisissllcQKLDDGVELsvyylsha

       litYET*YIEVEKFFLALVVSFKK*rnylfrshINVICKDKVLRDITTNIYKNSRIA**K

       DILDEFGfhyisqa*TKGQVIATQLT

    

    where:

    

    MNCI01000001.1:152848-153282 is unique identifier of sequence in database.

    

    RH is type of protein domain.

    

    Class_I|LTR|Ty3/gypsy|non-chromovirus|OTA|Tat is classification of protein domain.

> dante_ltr -h

usage: dante_ltr [-h] -g GFF3 -s REFERENCE_SEQUENCE -o OUTPUT [-c CPU] [-M MAX_MISSING_DOMAINS] [-L MIN_RELATIVE_LENGTH] [-S MAX_CHUNK_SIZE] [-v] [--te_constrains TE_CONSTRAINS] [--no_ambiguous_domains]

 

        Tool for identifying complete LTR retrotransposons based on 

        analysis of protein domains identified with the DANTE tool

        

 

options:

  -h, --help            show this help message and exit

  -g GFF3, --gff3 GFF3  gff3 file with full output from Domain Based Annotation of Transposable Elements (DANTE)

  -s REFERENCE_SEQUENCE, --reference_sequence REFERENCE_SEQUENCE

                        reference sequence as fasta file

  -o OUTPUT, --output OUTPUT

                        output file path and prefix

  -c CPU, --cpu CPU     number of CPUs

  -M MAX_MISSING_DOMAINS, --max_missing_domains MAX_MISSING_DOMAINS

  -L MIN_RELATIVE_LENGTH, --min_relative_length MIN_RELATIVE_LENGTH

                        Minimum relative length of protein domain to be considered for retrostransposon detection

  -S MAX_CHUNK_SIZE, --max_chunk_size MAX_CHUNK_SIZE

                        

                                If size of reference sequence is greater than this value, reference is '

                                'analyzed in chunks of this size. default is 100000000 '

                                'Setting this value too small  will slow down the analysis

                                

  -v, --version         show program's version number and exit

  --te_constrains TE_CONSTRAINS

                        csv table specifying TE constraints for LTR search, template for this table 

                        can be found in https://github.com/kavonrtep/dante_ltr/blob/main/databases/lineage_domain_order.csv

  --no_ambiguous_domains

                        Remove ambiguous domains from analysis

    

 

実行方法

1、DANTEの実行。dante.pyスクリプトは、(multi)fasta形式のDNA配列をスキャンし、タンパク質ドメインデータベースを用いてタンパク質ドメインを検索する(出力は品質フィルタリングされていない予備的な出力)。

dante -q input.fasta -o out.gff3 -c 20
  • -c     number of threads to use (default: 1)
  • -dir    specify if you want to change the output directory (default: .)
  • -q    input DNA sequence to search for protein domains in a fasta format.

* 入力fastaの配列名が複雑だとエラーを起こすので、予めシンプルな名前にリネームしておく。計算が終わると、タンパク質ドメインのGFF3が出力される。シロイヌナズナのchr1を使うと1分程度で計算が終了した。

 

2、DANTE_LTRの実行。DANTEで同定したタンパク質ドメインから、DANTE_LTRを使って完全なLTRレトロトランスポゾンを同定する。

conda activate dante_ltr
dante_ltr -g DANTE_output.gff3 -s sample_genome.fasta -o DANTE_LTR_annotation -M 1 -c 20
  • -c    number of CPUs
  • -M   MAX_MISSING_DOMAINS

シロイヌナズナのchr1を使うと1分以内に計算が終了した。

 

出力例

 

DANTE_LTR_annotation_summary_plots/


all_elements.png

Class_I_LTR_Ty1_copia_Ale_structure.png

Class_I_LTR_Ty1_copia_Ale_summary.png

他のLTRレトロトランスポゾンファミリーも同様の図が出力されている。

 

レポジトリより

  • 完全なレトロトランスポゾンは、DANTEツールによって認識されたタンパク質ドメインクラスターとして同定される。クラスター中のドメインはDANTEによって単一のレトロトランスポゾン系統に割り当てられなければならない。さらに、タンパク質ドメインの方向と順序、およびそれらの間の距離も評価される。 次のステップでは、推定レトロトランスポゾンの5'と3'末端のlong terminal repeatsの存在について調べる。5'および3'末端にlong terminal repeatsが検出された場合、標的部位重複(TSD)およびプライマー結合部位(PSB)の検出が行われる。検出されたLTRレトロトランスポンは5つのカテゴリーに分類される:
  1. タンパク質ドメインを持つエレメント、5'LTR、3'LTR、TSD、PBS - ランクはDLTP
  2. タンパク質ドメインを持つエレメント、5'LTR、3'LTR、PBS (TSDは見つからなかった) ランクはDLP
  3. タンパク質ドメインを持つエレメント、5'LTR、3'LTR、TSD(PBSは見つからなかった)-ランクはDTL
  4. タンパク質ドメインを持つエレメント、5'LTRと3'LTR(PBSTDSは見つからなかった) - ランクはDL
  5. 同じ分類のタンパク質ドメインクラスターとしてのエレメント、LTRなし - ランクはD
  • LTR-RTを類似性ベースのアプローチでアノテーションを付けたい場合、dante_ltr_to_libraryスクリプトを使用してRepeatMasker用にフォーマットされたライブラリを作成できる。

 

論文より

  • 植物ゲノムのLTR-RTのアノテーション用に開発された他のツールと比較して、DANTE_LTRはEDTAやInpactor2よりも感度が高く、有意に多くのエレメントを同定できることが証明された。さらにDANTE_LTRは、タンパク質ドメインのタイプや配置、LTR、TSD、PBS、TG/CA境界など、多くのパターンを組み合わせて評価することで、より特異的であることが証明された。驚くべき発見は、比較した3つのパイプラインによって生成されたLTR-RTアノテーションや、Zhouら(Zhou et al. 2021)によって生成されたアノテーションには比較的重複が少なく、ほとんどの要素が単一または少数のツールによって同定され、すべてのツールによって同時に同定された要素はまれであったことである。これは、植物ゲノムにおけるエレメントの配列および構造の変異が大きいことと、エレメントの特定の変異を同定するための比較したアプローチの効率が異なることに起因している可能性がある。この結果の重要な帰結は、植物ゲノムアセンブリのLTR-RTのアノテーションには、単一のツールではなく、異なる認識原理を実装した複数のツールを組み合わせて使用することの重要性を強調していることである。

     

DANTE_LTRとDANTEの出力するGFF3 formatについてはレポジトリで説明されています。確認してください。

引用

DANTE and DANTE_LTR: computational pipelines implementing lineage-centered annotation of LTR-retrotransposons in plant genomes

Petr Novak, Nina Hostakova,  Pavel Neumann,  Jiri Macas

bioRxiv, Posted April 19, 2024.

 

関連

リピートをマスクする RepeatMasker

de novoでTEを見つけてアノテーションをつけるパイプライン EDTA

Long terminal repeats retrotransposonsをゲノム配列からde novoで発見する LtrDetector