macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

トランスポゾンを分類する TEsorter

 

 Transposable elements(TE)は真核生物ゲノムの重要な部分を構成するが、それらの分類、特にクレードレベルでの分類は依然として困難である。 この目的のために、TEの保存されたタンパク質ドメインに基づいたTEsorterを提案する。 TEsorterはTE、特にLTRレトロトランスポゾン(LTR-RT)を分類し、使いやすく、マルチプロセッシングで高速で、高感度で正確である。 その結果は、分類されたLTR-RTの系統関係と多様性を直接反映することもできる。 Pythonのコードはhttps://github.com/zhangrengang/TEsorterから無料で入手できる。

 

使用されているデータベース

http://repeatexplorer.org/?page_id=918

 

インストール 

ubuntu18.04LTSのpython3.5環境でテストした(conda createで仮想環境作成)。

依存

  • python >3
  • + biopython: quickly install by pip install biopython or conda install biopython
  • + parallel python v1.6.4.4: quickly install by conda install pp
  • hmmscan 3.1x or 3.2x: be compatible with HMMER3/f database format. quickly install by conda install hmmer
  • blast+: quickly install by conda install blast
#bioconda(link)
conda create -n tesorter -y
conda activate tesorter
conda install -c bioconda tesorter -y

本体 Github

git clone https://github.com/zhangrengang/TEsorter 
cd TEsorter
sh build_database.sh

python ../TEsorter.py -h

$ TEsorter -h

2020-01-20 23:15:41,696 -WARNING- Grid computing is not available because DRMAA not configured properly: Could not find drmaa library.  Please specify its full path using the environment variable DRMAA_LIBRARY_PATH

2020-01-20 23:15:41,696 -INFO- No DRMAA, Switching to local/cluster mode.

usage: TEsorter [-h] [--version] [-db {rexdb,rexdb-metazoa,rexdb-plant,gydb}]

                [-st {nucl,prot}] [-pre PREFIX] [-fw] [-p PROCESSORS]

                [-tmp TMP_DIR] [-cov MIN_COVERAGE] [-eval MAX_EVALUE] [-dp2]

                [-rule PASS2_RULE] [-nolib] [-norc] [-nocln]

                sequence

 

lineage-level classification of transposable elements using conserved protein

domains

 

positional arguments:

  sequence              input TE sequences in fasta format [required]

 

optional arguments:

  -h, --help            show this help message and exit

  --version             show program's version number and exit

  -db {rexdb,rexdb-metazoa,rexdb-plant,gydb}, --hmm-database {rexdb,rexdb-metazoa,rexdb-plant,gydb}

                        the database used [default=rexdb]

  -st {nucl,prot}, --seq-type {nucl,prot}

                        'nucl' for DNA or 'prot' for protein [default=nucl]

  -pre PREFIX, --prefix PREFIX

                        output prefix [default='{-s}.{-db}']

  -fw, --force-write-hmmscan

                        if False, will use the existed hmmscan outfile and

                        skip hmmscan [default=False]

  -p PROCESSORS, --processors PROCESSORS

                        processors to use [default=4]

  -tmp TMP_DIR, --tmp-dir TMP_DIR

                        directory for temporary files [default=./tmp]

  -cov MIN_COVERAGE, --min-coverage MIN_COVERAGE

                        mininum coverage for protein domains in HMMScan output

                        [default=20]

  -eval MAX_EVALUE, --max-evalue MAX_EVALUE

                        maxinum E-value for protein domains in HMMScan output

                        [default=0.001]

  -dp2, --disable-pass2

                        do not further classify the unclassified sequences

                        [default=False for `nucl`, True for `prot`]

  -rule PASS2_RULE, --pass2-rule PASS2_RULE

                        classifying rule [identity-coverage-length] in pass-2

                        based on similarity [default=80-80-80]

  -nolib, --no-library  do not generate a library file for RepeatMasker

                        [default=False]

  -norc, --no-reverse   do not reverse complement sequences if they are

                        detected in minus strand [default=False]

  -nocln, --no-cleanup  do not clean up the temporary directory

                        [default=False]

 

 

テストラン

TEsorter-test

f:id:kazumaxneo:20200120232615p:plain

出力(詳細はGithubに書かれている)

f:id:kazumaxneo:20200120232735p:plain


rice6.9.5.liban.rexdb.cls.tsv (TEs/LTR-RTs classifications)

f:id:kazumaxneo:20200120232901p:plain

 

実行方法

TE配列を指定する。8CPU指定。データベースにはREXdb(link)が使用されている。-dbで変更できる。

TEsorter input_file -p 8 -db rexdb

 

 

 ゲノム配列のFASTAはあるがアノテーション情報がない場合、Repeat maskerとLTR_retrieverを使って、TEをゲノムから抽出できます。その1例がGithub READMEの下の方に記載されています。また、LTRなどのRTドメインの配列を抽出、配列比較からphylogenetic analysesを行う例もGithub READMEに記載されています(中盤付近)。

 

引用

TEsorter: lineage-level classification of transposable elements using conserved protein domains

Ren-Gang Zhang, Zhao-Xuan Wang, Shujun Ou, Guang-Yuan Li

bioRxiv preprint first posted online Oct. 10, 2019