Transposable elements(TE)は真核生物ゲノムの重要な部分を構成するが、それらの分類、特にクレードレベルでの分類は依然として困難である。 この目的のために、TEの保存されたタンパク質ドメインに基づいたTEsorterを提案する。 TEsorterはTE、特にLTRレトロトランスポゾン(LTR-RT)を分類し、使いやすく、マルチプロセッシングで高速で、高感度で正確である。 その結果は、分類されたLTR-RTの系統関係と多様性を直接反映することもできる。 Pythonのコードはhttps://github.com/zhangrengang/TEsorterから無料で入手できる。
使用されているデータベース
http://repeatexplorer.org/?page_id=918
インストール
ubuntu18.04LTSのpython3.5環境でテストした(conda createで仮想環境作成)。
依存
- python >3
- + biopython: quickly install by pip install biopython or conda install biopython
- + parallel python v1.6.4.4: quickly install by conda install pp
- hmmscan 3.1x or 3.2x: be compatible with HMMER3/f database format. quickly install by conda install hmmer
- blast+: quickly install by conda install blast
#bioconda(link)
conda create -n tesorter -y
conda activate tesorter
conda install -c bioconda tesorter -y
本体 Github
git clone https://github.com/zhangrengang/TEsorter
cd TEsorter
sh build_database.sh
> python ../TEsorter.py -h
$ TEsorter -h
2020-01-20 23:15:41,696 -WARNING- Grid computing is not available because DRMAA not configured properly: Could not find drmaa library. Please specify its full path using the environment variable DRMAA_LIBRARY_PATH
2020-01-20 23:15:41,696 -INFO- No DRMAA, Switching to local/cluster mode.
usage: TEsorter [-h] [--version] [-db {rexdb,rexdb-metazoa,rexdb-plant,gydb}]
[-st {nucl,prot}] [-pre PREFIX] [-fw] [-p PROCESSORS]
[-tmp TMP_DIR] [-cov MIN_COVERAGE] [-eval MAX_EVALUE] [-dp2]
[-rule PASS2_RULE] [-nolib] [-norc] [-nocln]
sequence
lineage-level classification of transposable elements using conserved protein
domains
positional arguments:
sequence input TE sequences in fasta format [required]
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
-db {rexdb,rexdb-metazoa,rexdb-plant,gydb}, --hmm-database {rexdb,rexdb-metazoa,rexdb-plant,gydb}
the database used [default=rexdb]
-st {nucl,prot}, --seq-type {nucl,prot}
'nucl' for DNA or 'prot' for protein [default=nucl]
-pre PREFIX, --prefix PREFIX
output prefix [default='{-s}.{-db}']
-fw, --force-write-hmmscan
if False, will use the existed hmmscan outfile and
skip hmmscan [default=False]
-p PROCESSORS, --processors PROCESSORS
processors to use [default=4]
-tmp TMP_DIR, --tmp-dir TMP_DIR
directory for temporary files [default=./tmp]
-cov MIN_COVERAGE, --min-coverage MIN_COVERAGE
mininum coverage for protein domains in HMMScan output
[default=20]
-eval MAX_EVALUE, --max-evalue MAX_EVALUE
maxinum E-value for protein domains in HMMScan output
[default=0.001]
-dp2, --disable-pass2
do not further classify the unclassified sequences
[default=False for `nucl`, True for `prot`]
-rule PASS2_RULE, --pass2-rule PASS2_RULE
classifying rule [identity-coverage-length] in pass-2
based on similarity [default=80-80-80]
-nolib, --no-library do not generate a library file for RepeatMasker
[default=False]
-norc, --no-reverse do not reverse complement sequences if they are
detected in minus strand [default=False]
-nocln, --no-cleanup do not clean up the temporary directory
[default=False]
テストラン
TEsorter-test
出力(詳細はGithubに書かれている)
rice6.9.5.liban.rexdb.cls.tsv (TEs/LTR-RTs classifications)
実行方法
TE配列を指定する。8CPU指定。データベースにはREXdb(link)が使用されている。-dbで変更できる。
TEsorter input_file -p 8 -db rexdb
ゲノム配列のFASTAはあるがアノテーション情報がない場合、Repeat maskerとLTR_retrieverを使って、TEをゲノムから抽出できます。その1例がGithub READMEの下の方に記載されています。また、LTRなどのRTドメインの配列を抽出、配列比較からphylogenetic analysesを行う例もGithub READMEに記載されています(中盤付近)。
引用
TEsorter: lineage-level classification of transposable elements using conserved protein domains
Ren-Gang Zhang, Zhao-Xuan Wang, Shujun Ou, Guang-Yuan Li
bioRxiv preprint first posted online Oct. 10, 2019