macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

非常に低いカバレッジのWGSデータからTEを推定する Transposome

 

ゲノムのリピートのアノテーションは、利用可能なツールが数多くあり、すべてが性能や精度に関して分析されていないという理由から、挑戦的な課題である(Leret、2010)。転移因子(TE)を同定するための現在のアプローチは、ゲノムアセンブリ(Ellinghaus et al、2008; Steinbiss et al、2009; Xu and Wang、2007)、数学的またはk-merベースの方法(Bao and Eddy、2002; Kurtz et al、2008)、アノテーション付きTE(Wheeler et al、2013)を用いたシグネチャベースの方法、およびアセンブリされていないシーケンシングリードからのクラスタベースのアプローチ(Novak  et al、2010、2013)。TEを同定する最も正確な方法は、上記の方法の組み合わせによるものであろう(Bergman and Quesneville 2007; Leret、2010; Saha et al、2008)。前述のアプローチに対する1つの警告は、リファレンスゲノム(すなわち、組み立てられたゲノム)を入力として必要とすることである。しかし、ゲノムシーケンシングコストが非モデル種にとっては非常に高く、ゲノムアセンブリアルゴリズムは大規模かつ複雑なゲノムを容易に解決することができないので、関心のある全ての種についてリファレンスゲノムを生成することは現実的ではない(Alkan et al、2011)。したがって、研究対象としない種からのリピートのアノテーションを改善する理想的な解決法は、ハイスループットのDNAシーケンシング技術を活用することであり、多くの種のphylogenicなTE特性の解析を同時に可能にする。

 ここでは、非常に低いカバレッジの全ゲノムショットガン(WGS)データからTEファミリーのgenomic abundanceを正確に推定できるツールセットTransposomeを紹介し、多くの種のゲノム組成の変化を迅速に検出できるようにする。 Transposomeは、WGSデータからリピートを検出するために最近公開されたツールであるRepeatExplorer(Novak et al、2013)の設計の多くを借りている。 RepeatExplorerは、使いやすいWebインターフェイスをユーザーに提供している。しかし、このツールは計算効率が悪く、設計がモジュール化されていないため、複数の種の解析やカスタムパイプラインの設計が不可能である。 Transposomeは、RepeatExplorerの基本的なアプローチをベースにしている。これは、WGSリード間の類似性のグラフベースの分析を通じて、ゲノムの類似性を見いだしている。 Transposomeでは、このアプローチをゲノムリピートのアノテーションのより細かいレベルを提供するために拡張し、ゲノムリピート量の生物学的な直接的な推定値を提供する。

 著者らは、十分に研究されたトウモロコシ(Zea mays L.)ゲノムからのWGSリードセットを分析することにより、Transposomeの有用性を実証し、結果をこの種の公表されたゲノムアセンブリの推定値と比較する。著者らの発見は、ゲノムリピートの定量化において、トランスポゼームがより正確であり、他のアプローチよりも効率的であることを示している(論文 補足表S1)。

 

HP

http://sestaton.github.io/Transposome/

 

Transposomeに関するツイート

 

インストール

本体 GIthub

#ここではdockerコンテナを使う。
docker pull sestaton/transposome
docker run --rm -itv $PWD:/data/ sestaton/transposome

> transposome

# transposome

 

[ERROR]: No arguments were given.

 

Transposome version: 0.12.1

 

USAGE: transposome [-c] [-a] [-int] [-idx] [-edges] [-bdb] [-clsdir] [-v] [-h] [-m]

 

Required:

    -c|config           :    The Transposome configuration file. This is all that is required to run

                             the full analysis. The options below are for individual analysis steps.

 

Options:

    -a|analysis         :    The type of analysis to perform (Default: all).

    -int|intfile        :    The file containing an index of each sequence 

                             (only required for the 'cluster' analysis).

    -idx|idxfile        :    The file containing an index mapping the sequence ID and the

                             ID used for clustering (only required for the 'cluster' analysis).

    -edges|edgefile     :    The file containing the best pairwise matches and

                             the score (only required for the 'cluster' analysis).

    -bdb|blastdb        :    The all-vs-all BLAST file (only required for the 'findpairs' analysis).

    -clsdir|clusterdir  :    The directory of FASTA files for each cluster 

                             (only required for the 'annotation' analysis).

    -seqct|sequencect   :    The total number of sequences used in the analysis.

                             (only required for the 'annotation' analysis).

    -clsct|clusteredct  :    The total number of clustered sequences.

                             (only required for the 'annotation' analysis).

    -v|version          :    Print the program version and exit.

    -h|help             :    Print a usage statement.

    -m|man              :    Print the full documentation.

 

Citation: Staton SE, and Burke JM. 2015. Transposome: A toolkit for annotation of transposable element 

          families from unassembled sequence reads. Bioinformatics, 31:1827-1829.

 

 

 

実行方法

1、トランスポゾンデータベースファイルをダウンロードする。例えばREPBASEからダウンロードできる(アカウント登録してログインする必要がある)。

https://www.girinst.org/downloads/

 

2、configurationファイルを編集する。

#テストconfigファイルをダウンロード
curl -sL https://git.io/bPVv > transposome_config.yml

 > cat transposome_cnfig.yml

# cat transposome_config.yml 

## For more information about this file, see: 

## https://github.com/sestaton/Transposome/wiki/Specifications-and-example-usage.

blast_input:

  - sequence_file:      t_reads.fas

  - sequence_format:    fasta

  - thread:             2

  - output_directory:   transposome_results_out

clustering_options:

  - in_memory:          1

  - percent_identity:   90

  - fraction_coverage:  0.55

annotation_input:

  - repeat_database:    repeats.fas

annotation_options:

  - cluster_size:       100

output:

  - run_log_file:       t_log.txt

  - cluster_log_file:   t_cluster_report.txt

  • repeat_database   The FASTA file of sequences, typically transposable elements from a closely related species, to be used for annotation.

 

2、あとはconfigurationファイルを指定すれば実行できる。

transposome --config transposome_config.yml

 

必要なリード数

https://github.com/sestaton/Transposome/wiki/Quick-Start

デフォルトでは100bpに最適化されているが、よりリード長が長い場合、パラメータの調整が必要

https://github.com/sestaton/Transposome/wiki/Running-Transposome-with-long-read-data

引用
Transposome: a toolkit for annotation of transposable element families from unassembled sequence reads
Staton SE, Burke JM

Bioinformatics. 2015 Jun 1;31(11):1827-9