macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

トランスポゾン検出ツール5 RelocaTEとRelocaTE2

RelocaTE

RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。

 

依存するもの

  • Blat
  • Bowtie 1
  • BioPerl
  • SAMtools
  • BWA Recommeded for the creation of the BAM file needed by CharacTErizer
  • Blast (Legacy) formatdb and fastacmd are used for indexed sequence retrieval in an additional companion tool, ConstrucTEr, more info coming soon.

 

Github

GitHub - srobb1/RelocaTE: Find the locations of TEs using the TSD in unassembled short reads by comparing to a closely related reference genome assembly

 

script/relocaTE.pl がTE検出ツールの本体である。

perl relocaTE.pl 

-t  TE FASTA File (Required).

検出したいトランスポゾン配列をfastaで定義する。マルチファスタで複数記入する事もできる。TE配列は末端の terminal inverted repeats (TIRs) [or LTR]も含めて入力してやる必要がある。また、TEのターゲットサイト (TSD) の配列についても塩基で書く必要がある。sampleデータでは">mping TSD=TTA" と3塩基書かれている。GithubのHPには、以下の例が書かれている。

  • TSD=(A|T)GCC => A or Tの後にGC
  • TSD=CGA.A(CT|G) => CGAの後にいずれか1塩基、次がAで、最後がCT or G。

-d Directory of fq files  (Required).

fastqのディレクトリを指定。pairでもpairでなくても入力可能だが、paired-endならばpaired _p1.fq & _p2.fqのような名前にする。拡張子はfq、fastqに対応。

-g Reference genome fasta file (Optional).

任意だが、入力されるとTE挿入位置をコールしてくれる。入力がなければ、TEにアライメントされたリードや、TE末端でトリムされたリードの配列、トリム位置などの情報が出力される。

-e Sample identifier (Optional). 

出力のID名などに使われる。

-o Output directory name (Optional).

デフォルトはoutdir_teSearch。

-1 Unique mate/pair 1 string (Optional, Recommended). mate-pairのファイル。

-2 Unique mate/pair 2 string (Optional, Recommended). mate-pairのファイル。

 

他にもいくつかオプションがある。例えば動作速度を上げるためにparallelで並列化するオプションなどは使えそうである。

 

テストランを実行する。

cd sample_relocaTE_run/
sh run_relocaTE.sh #

 

 

RelocaTE2

RelocaTE2はRelocaTEのバージョンアップ版である。RelocaTEがparallelで並列実行して他のに対し、RelocaTE2はゲノム全体のTEを1サイクルで検索する。これによって、ラージゲノムに数千飛んでいるようなTEのcopy number variationなども現実的な時間で分析できるようになったとされる。

 

Github

GitHub - JinfengChen/RelocaTE2: RelocaTE2