macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

トランスポゾン検出ツール3 Jitterbug

 

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに、Jitterbugはbamファイルのsoft-clipされたリードの情報を使いトランスポゾンを予測する。人とナズナでテストされ、long readで結果は検証されている。

高い感受性を持つとされ、論文中では特定のアレルの挿入がホモかヘテロかも判断できると主張されている。

 

インストール

依存するpytonモジュール

  • python2.7以上
  • pysam (0.7.5 or 0.8.1) 
  • pybedtools
  • psutil
  • matplotlib
  • matplotlib-venn
  • memory_profiler

pipが入っていれば、上記は全てpip install <module名>で導入できる。

本体のダウンロードはGithubから行う。

GIthubリンク

 

pysamの最新版だとcsamtoolsがないというエラーが出る。

Google Code Archive - Long-term storage for Google Code Project Hosting.から、pysam0.7.5をダウンロードし、python2 setup.py installでpysam0.7.5を手動インストールして対応した。

 

実行方法

python jitterbug.py -n 8 -b 50000000 -o /path/to/my/dir/prefix sample.bam te_annot.gff3

 でランする。オプションの後に、bamファイルと、トランスポゾン配列をgff3形式にしたものを入力する。python3以降とpython2.7をいれている人はpython2と明示してランする。

-n Number of CPUs to use

-b If parallelized, size of bins to use, in bp. 

-o Prefix of output files.

-hでヘルプを表示する。

 

data/には2014年にplant journalで発表されたシロイヌナズナゲノムのTAIR10のトランスポゾン遺伝子のgff3ファイルが保存されている。

f:id:kazumaxneo:20170703015328j:plain

27506行ある。

f:id:kazumaxneo:20170703015805j:plain

拡大表示。

ナズナならばこれを使いすぐランできると思われる。

 

 

引用

Jitterbug: somatic and germline transposon insertion detection at single-nucleotide resolution.

Elizabeth Hénaff, Luís Zapata, Josep M. CasacubertaEmail author and Stephan OssowskiEmail author

BMC Genomics 2015 16:768 DOI: 10.1186/s12864-015-1975-5© Hénaff et al. 2015