TELR(Tellerと発音)は、ロングリードシーケンシングデータ(PacBioまたはOxford Nanopore)からの高速な非リファレンストランスポーザブルエレメント(TE)検出器である。TELRは、リファレンスゲノムにマッピングされたロングリードを使用してSnifflesを使用して挿入を識別し、挿入を支持するリードとユーザーが提供したTEコンセンサス配列を照合することで挿入をフィルタリングする。各TE挿入候補遺伝子座について、TELRはTE挿入をサポートするすべてのリードのローカルアセンブリを行い、アセンブリーされたコンティグにTE配列をアノテーションした後、そのフランクをリファレンスゲノムにマップする。最後に、TELRは非参照TE挿入の座標とアセンブルされたTE配列を生成する。
現在のバージョンのTELRは、ヘテロ接合性のTE挿入を含む実際のDrosophila melanogasterのデータセットで良好なパフォーマンスを示している。
インストール
付属のyamlファイルでcondaの仮想環境を作成してテストした(ubuntu18.04LTS)。
git clone git@github.com:bergmanlab/TELR.git
cd TELR
conda env create -f envs/telr.yml
conda activate TELR_env
> python telr.py -h
$ python telr.py -h
usage: telr.py [-h] -i READS -r REFERENCE -l LIBRARY [-x PRESETS] [-p POLISH]
[-o OUT] [-t THREAD] [-g GAP] [-v OVERLAP] [-k]
Script to detect TEs in long read data
required arguments:
-i READS, --reads READS
reads in fasta/fastq format or read alignments in bam
format
-r REFERENCE, --reference REFERENCE
reference genome in fasta format
-l LIBRARY, --library LIBRARY
TE consensus sequences in fasta format
optional arguments:
-h, --help show this help message and exit
-x PRESETS, --presets PRESETS
parameter presets for different sequencing
technologies (default = 'pacbio')
-p POLISH, --polish POLISH
rounds of contig polishing (default = 1)
-o OUT, --out OUT directory to output data (default = '.')
-t THREAD, --thread THREAD
max cpu threads to use (default = '1')
-g GAP, --gap GAP max gap size for flanking sequence alignment (default
= '20')
-v OVERLAP, --overlap OVERLAP
max overlap size for flanking sequence alignment
(default = '20')
-k, --keep_files If provided then all intermediate files will be kept
(default: remove intermediate files)
実行方法
ロングリードとリファレンスのfasta、TEのコンセンサス配列を指定する。
python3 telr.py -i long_read.fq -r ref.fasta -t 20 -x pacbio -l test/library.fasta
-
-i reads in fasta/fastq format or read alignments in bam format
-
-r reference genome in fasta format
-
-l TE consensus sequences in fasta format
- -x parameter presets for different sequencing technologies (default = 'pacbio')
-
-o directory to output data (default = '.')
-
-t max cpu threads to use (default = '1')
Outputについて
https://github.com/bergmanlab/TELR/blob/master/docs/03_Output_Files.md
引用
https://github.com/bergmanlab/TELR
2020 Shunhua Han and Casey M. Bergman