トランスポゾンを分類する TEsorter - macでインフォマティクス

　Transposable elements（TE）は真核生物ゲノムの重要な部分を構成するが、それらの分類、特にクレードレベルでの分類は依然として困難である。この目的のために、TEの保存されたタンパク質ドメインに基づいたTEsorterを提案する。 TEsorterはTE、特にLTRレトロトランスポゾン（LTR-RT）を分類し、使いやすく、マルチプロセッシングで高速で、高感度で正確である。その結果は、分類されたLTR-RTの系統関係と多様性を直接反映することもできる。 Pythonのコードはhttps://github.com/zhangrengang/TEsorterから無料で入手できる。

使用されているデータベース

http://repeatexplorer.org/?page_id=918

インストール

ubuntu18.04LTSのpython3.5環境でテストした（conda createで仮想環境作成）。

依存

python >3
+ biopython: quickly install by pip install biopython or conda install biopython
+ parallel python v1.6.4.4: quickly install by conda install pp
hmmscan 3.1x or 3.2x: be compatible with HMMER3/f database format. quickly install by conda install hmmer
blast+: quickly install by conda install blast

#bioconda(link)
conda create -n tesorter -y
conda activate tesorter
conda install -c bioconda tesorter -y

本体　Github

git clone https://github.com/zhangrengang/TEsorter 
cd TEsorter 
sh build_database.sh

> python ../TEsorter.py -h

$ TEsorter -h

2020-01-20 23:15:41,696 -WARNING- Grid computing is not available because DRMAA not configured properly: Could not find drmaa library. Please specify its full path using the environment variable DRMAA_LIBRARY_PATH

2020-01-20 23:15:41,696 -INFO- No DRMAA, Switching to local/cluster mode.

usage: TEsorter [-h] [--version] [-db {rexdb,rexdb-metazoa,rexdb-plant,gydb}]

[-st {nucl,prot}] [-pre PREFIX] [-fw] [-p PROCESSORS]

[-tmp TMP_DIR] [-cov MIN_COVERAGE] [-eval MAX_EVALUE] [-dp2]

[-rule PASS2_RULE] [-nolib] [-norc] [-nocln]

sequence

lineage-level classification of transposable elements using conserved protein

domains

positional arguments:

sequence input TE sequences in fasta format [required]

optional arguments:

-h, --help show this help message and exit

--version show program's version number and exit

-db {rexdb,rexdb-metazoa,rexdb-plant,gydb}, --hmm-database {rexdb,rexdb-metazoa,rexdb-plant,gydb}

the database used [default=rexdb]

-st {nucl,prot}, --seq-type {nucl,prot}

'nucl' for DNA or 'prot' for protein [default=nucl]

-pre PREFIX, --prefix PREFIX

output prefix [default='{-s}.{-db}']

-fw, --force-write-hmmscan

if False, will use the existed hmmscan outfile and

skip hmmscan [default=False]

-p PROCESSORS, --processors PROCESSORS

processors to use [default=4]

-tmp TMP_DIR, --tmp-dir TMP_DIR

directory for temporary files [default=./tmp]

-cov MIN_COVERAGE, --min-coverage MIN_COVERAGE

mininum coverage for protein domains in HMMScan output

[default=20]

-eval MAX_EVALUE, --max-evalue MAX_EVALUE

maxinum E-value for protein domains in HMMScan output

[default=0.001]

-dp2, --disable-pass2

do not further classify the unclassified sequences

[default=False for `nucl`, True for `prot`]

-rule PASS2_RULE, --pass2-rule PASS2_RULE

classifying rule [identity-coverage-length] in pass-2

based on similarity [default=80-80-80]

-nolib, --no-library do not generate a library file for RepeatMasker

[default=False]

-norc, --no-reverse do not reverse complement sequences if they are

detected in minus strand [default=False]

-nocln, --no-cleanup do not clean up the temporary directory

[default=False]

テストラン

TEsorter-test

f:id:kazumaxneo:20200120232615p:plain

出力（詳細はGithubに書かれている）

f:id:kazumaxneo:20200120232735p:plain

rice6.9.5.liban.rexdb.cls.tsv （TEs/LTR-RTs classifications）

f:id:kazumaxneo:20200120232901p:plain

実行方法

TE配列を指定する。8CPU指定。データベースにはREXdb（link）が使用されている。-dbで変更できる。

TEsorter input_file -p 8 -db rexdb

ゲノム配列のFASTAはあるがアノテーション情報がない場合、Repeat maskerとLTR_retrieverを使って、TEをゲノムから抽出できます。その１例がGithub READMEの下の方に記載されています。また、LTRなどのRTドメインの配列を抽出、配列比較からphylogenetic analysesを行う例もGithub READMEに記載されています（中盤付近）。

引用

TEsorter: lineage-level classification of transposable elements using conserved protein domains

Ren-Gang Zhang, Zhao-Xuan Wang, Shujun Ou, Guang-Yuan Li

bioRxiv preprint first posted online Oct. 10, 2019