macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブルのgraphからプラスミドデータを検出するツール Recycler

2018 1/9 condaインストール追記

 

Recyclerはアセンブルのgraph pathからプラスミドの配列を検出する方法論。プラスミドのグラフは他のゲノムのグラフと独立しており、カバレッジが均一な少数のノードで構成される環状のグラフと推測される。これらの手がかりからプラスミドのグラフを探索する。2016年に論文が発表された。

 

インストール

依存 

Python 2.7+

いずれもpipでインストールできる。

 

Recommended for generating inputs

推奨ツールはbrewで導入できる。

 

Github

https://github.com/Shamir-Lab/Recycler

本体のインンストール

git clone https://github.com/rozovr/Recycler.git 
cd Recycler
python setup.py install --user

#またはcondaを使う
conda install -c bioconda -y recycler

 

ラン 

ランにはspadesでアセンブルして得たfastgファイルと、ペアードエンドfastqから作成したbamファイルが必要である(アライメントにはbwa memを使う)。以下のような流れでbamを作成できる。

make_fasta_from_fastg.py -g assembly_graph.fastg #graph.fastaができる。
bwa index assembly_graph.nodes.fasta
bwa mem -t 8 assembly_graph.nodes.fasta R1.fastq.gz R2.fastq.gz | samtools view -buS -@ 8 - > reads_pe.bam
samtools view -@ 8 -bF 0x0800 reads_pe.bam > reads_pe_primary.bam
samtools sort -@ 8 reads_pe_primary.bam > reads_pe_primary.sort.bam
samtools index reads_pe_primary.sort.bam

reads_pe_primary.sort.bamとそのbaiファイルを使用する。

  

recycle.py -g assembly_graph.fastg -k 55 -b reads_pe_primary.sort.bam -i True
  •  -g assembly graph FASTG file to process: for spades 3.5, before_rr.fastg; for spades 3.6+, assembly_graph.fastg
  • -k integer reflecting maximum k value used by the assembler
  • -b BAM file resulting from aligning reads to contigs file, filtering for best matches

 解析が終わると~.cycs.fastaというfastaファイルが出力される。

 

それ以外のオプション。

  • -l minimum length required for reporting [default: 1000]
  • -m coefficient of variation used for pre-selection [default: 0.5, higher--> less restrictive]
  • -i True or False value reflecting whether data sequenced was an isolated strain
  • -o provide a specific output directory by default results will be written to the directory the FASTG file is currently in.

 

5kb~100kbの7つのプラスミドを持つバクテリアのシーケンスデータでテストしたところ、5kb程度の3つのプラスミドのみfastaが出力された。レスキューされたプラスミドは、コピー数がクロモソームの数倍あり、構造もシンプルである。一方、レスキューされなかったプラスミドはゲノムと部分的に相同な配列を含んだ複雑なグラフであり、コピー数もクロモソームと同じくらいであると考えられている。そのためこれらを構成するノードはゲノムのノードとは独立して存在していない可能性があり、それが判定に影響したと推測される。

 

  

引用

Recycler: an algorithm for detecting plasmids from de novo assembly graphs

Roye Rozov,corresponding author1 Aya Brown Kav,2 David Bogumil,2 Naama Shterzer,2 Eran Halperin,1,3,4 Itzhak Mizrahi,2 and Ron Shamir1

Bioinformatics. 2017 Feb 15; 33(4): 475–482.