macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードからトランスポゾンを検出する TELR

 

 TELR(Tellerと発音)は、ロングリードシーケンシングデータ(PacBioまたはOxford Nanopore)からの高速な非リファレンストランスポーザブルエレメント(TE)検出器である。TELRは、リファレンスゲノムにマッピングされたロングリードを使用してSnifflesを使用して挿入を識別し、挿入を支持するリードとユーザーが提供したTEコンセンサス配列を照合することで挿入をフィルタリングする。各TE挿入候補遺伝子座について、TELRはTE挿入をサポートするすべてのリードのローカルアセンブリを行い、アセンブリーされたコンティグにTE配列をアノテーションした後、そのフランクをリファレンスゲノムにマップする。最後に、TELRは非参照TE挿入の座標とアセンブルされたTE配列を生成する。

 現在のバージョンのTELRは、ヘテロ接合性のTE挿入を含む実際のDrosophila melanogasterのデータセットで良好なパフォーマンスを示している。

 

インストール

付属のyamlファイルでcondaの仮想環境を作成してテストした(ubuntu18.04LTS)。

Github

git clone git@github.com:bergmanlab/TELR.git
cd TELR
conda env create -f envs/telr.yml
conda activate TELR_env

> python telr.py -h

$ python telr.py -h

usage: telr.py [-h] -i READS -r REFERENCE -l LIBRARY [-x PRESETS] [-p POLISH]

               [-o OUT] [-t THREAD] [-g GAP] [-v OVERLAP] [-k]

 

Script to detect TEs in long read data

 

required arguments:

  -i READS, --reads READS

                        reads in fasta/fastq format or read alignments in bam

                        format

  -r REFERENCE, --reference REFERENCE

                        reference genome in fasta format

  -l LIBRARY, --library LIBRARY

                        TE consensus sequences in fasta format

 

optional arguments:

  -h, --help            show this help message and exit

  -x PRESETS, --presets PRESETS

                        parameter presets for different sequencing

                        technologies (default = 'pacbio')

  -p POLISH, --polish POLISH

                        rounds of contig polishing (default = 1)

  -o OUT, --out OUT     directory to output data (default = '.')

  -t THREAD, --thread THREAD

                        max cpu threads to use (default = '1')

  -g GAP, --gap GAP     max gap size for flanking sequence alignment (default

                        = '20')

  -v OVERLAP, --overlap OVERLAP

                        max overlap size for flanking sequence alignment

                        (default = '20')

  -k, --keep_files      If provided then all intermediate files will be kept

                        (default: remove intermediate files)

 

 

実行方法

ロングリードとリファレンスのfasta、TEのコンセンサス配列を指定する。

python3 telr.py -i long_read.fq -r ref.fasta -t 20 -x pacbio -l test/library.fasta
  • -i    reads in fasta/fastq format or read alignments in bam format

  • -r    reference genome in fasta format

  • -l    TE consensus sequences in fasta format

  • -x    parameter presets for different sequencing technologies (default = 'pacbio')
  • -o    directory to output data (default = '.')

  • -t     max cpu threads to use (default = '1')

 

 

Outputについて

https://github.com/bergmanlab/TELR/blob/master/docs/03_Output_Files.md

 

引用

https://github.com/bergmanlab/TELR

2020 Shunhua Han and Casey M. Bergman