macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

バクテリアのレプリコン情報によってcontigの並びを予測する eRParranger

 

 微生物学では、全ゲノムシーケンシングはもはやユニークなタイプの解析ではなく、現在は個々の研究研究の中で行われている[論文より ref.1,2]。この最近の変化は、大量のデータを効率的に処理するためのバイオインフォマティクスソフトウェアの改善とともに、コストを大幅に削減した超並列シーケンシング技術の向上によるものである[ref.4,5]。特に、ロングリードのアセンブラであるCanu [ref.6]やHINGE [ref.7]など、さまざまな状況に特有のアセンブラが開発されている(以下略)。

バクテリアのゲノム構造は、塩基組成バイアス、遺伝子鎖バイアス、およびオリゴマースキューなどの様々な層で観察できる[ref.14-19]。エネルギー効率[ref.20,21]および環境圧力[ref.22,23]に対処するために、これらのゲノム構造は、長い進化的時間スケールにわたる生物学的、化学的および物理的変異源の複雑な相互作用のために確立された[ref.24,25]。バクテリアゲノム配列は、系統分類によって説明できない様々なタイプの塩基組成を示す[ref.26,27]。さらに、ゲノム構造は重要な進化の軌道であるばかりでなく、生物学的プロセスにおいても中心的な役割を果たす[ref.28-30]。既存のアセンブラの多くは、多数のリードを使用して数学的にコンティグを設定し、各コンティグは個別にアセンブルされる。したがって、アセンブルされた各コンティグのゲノム位置を相互に関連付ける情報はなく、ゲノム構造の解析には完成したゲノムが必要となる。この問題はデノボ配列に限定されない。たとえ密接に関連するリファンレス種があっても、逆位、挿入または欠失を含むゲノム構造に影響を及ぼす大規模な突然変異が存在する可能性があるので、この問題は単純なアライメント比較によって解決することはできない。したがって、数学的および生物学的情報の両方を使用する必要がある。

 本論文では、experimental replication profiling(eRP)に基づいてコンティグ間の位置関係を類推する戦略を紹介している。 eRPは、指数期のリードカバレッジに従って各ゲノム位置間のDNAコピー数の差異を計算する技術である[ref.31]。この技術は、大腸菌や枯草菌に限らず、メタゲノム解析で得られた他の細菌ゲノムにも広く応用されている[ref.32]。さらに、DNAコピー数の勾配傾向は、ゲノム配列情報に基づくのではなく、ゲノム構造依存性複製挙動に基づく[ref.28]。したがって、eRP配置システムの概念は、指数期の間にサンプリングされたシーケンスデータを用いてコンティグをアセンブルし、各コンティグにおけるDNAコピー数勾配を計算し、勾配形状に基づいて順序および配向を再配列することである(論文図1)。

 

サンプリングのタイミングだが、先行研究でexponential phase が理想的であることがわかっており、論文の図2に濁度ごとのシーケンスデータのカバレッジの勾配が示されている。濁度0.2では明確な勾配が確認できるが、濁度3ではその勾配はほぼ消失している。

インストール

依存

  •  BWA

テストではSPAdesでアセンブルして、このツールに供している。SPAdesもBWAもbrewで導入できる。

本体 Github

https://github.com/nkono/eRParranger

git clone https://github.com/nkono/eRParranger.git
cd eRParranger/
perl eRParranger.pl -h

$ perl eRParranger.pl -h

 

Program: eRParranger (re-order system based on eRP curve)

Version: 1.0

 

Usage:   perl eRParranger.pl <command> [options]

 

Command: -c FILE       SPAdes contig file (format: FASTA)

         -s FILE       read mapped file on SPAdes contig (format: SAM)

         -l INT        minimum contig length [50000]

-o STR        output dir name [eRPoutput]

 

Note:    This program does not require other modules. On the other hand, users should prepare 

         two files (assembled contig file and read mapping file). The assembled contig file can be 

         obtained from SPAdes program (http://bioinf.spbau.ru/spades). The sequence reads mapped 

         SAM file on SPAdes contig can be generated by BWA program (http://bio-bwa.sourceforge.net).

 

License: GNU General Public License

         Copyright (C) 2017

         Institute for Advanced Biosciences, Keio University, JAPAN

 

Author:  Nobuaki Kono

 

 

 

ラン

Githubのガイドに従い、spadesなどでアセンブルする。

spades.py -t 12 -k auto --careful -1 read_R1.fq -2 read_R2.fq -o outdir

アセンブルしてできたcontigにリードをマッピングしてsamを作る。

bwa index contigs.fasta 
bwa mem -t 12 contigs.fasta read_R1.fq read_R2.fq > mapped.sam

本ツールで解析する。

perl eRParranger.pl -c contigs.fasta -s mapped.sam -o output

 

出力

 

[_appres.tsv] files have contig name, genomic position (start and end), coverage.

[_coverage.tsv] files have genomic position, coverage.

[_tmp.fasta] files have concatenated contig sequence.

[eRParranger.list] file has rearranged contig list.

[contig_] files are generated based on inputted contig data, and [eRParranger_] files are based on rearranged contig data.

 

テストデータのダウンロードリンクが消えていたのでテストできませんでしたが、復活したら追記します。

 

引用

eRP arrangement: a strategy for assembled genomic contig rearrangement based on replication profiling in bacteria

BMC Genomics. 2017; 18: 784.

Nobuaki Kono,corresponding author Masaru Tomita, and Kazuharu Arakawa