macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

単一のメタゲノムアセンブリゲノム(MAGs)とシーケンシングデータからバクテリアの増殖率を推定する iRep

 

 培養に依存しない微生物群集の研究により、微生物群集の複雑さと代謝の可能性に対する理解が深まった。ただし、コミュニティへの個々のマイクロバイオームメンバーの貢献を理解するには、どの細菌が活発に複製しているかを判断することが重要になる。ドラフト品質のゲノムシーケンスと単一のタイムポイントでのメタゲノムシーケンスを使用して微生物集団の複製率を推定するアルゴリズム、iRepを開発した。アルゴリズムは、単一の複製元からの双方向ゲノム複製から生じるシーケンスカバレッジトレンドに基づいて、複製のインデックス(iRep)を計算する。微生物の複製率がヒト幼児の抗生物質投与後に増加することを示すため、この方法を適用した。また、未培養の地下水に関連する候補フィラ放射線バクテリアが、地球化学の実質的な変化を経験している地下コミュニティでまれにしか急速に複製しないことも示す。この方法は、さまざまな条件に対する生物の反応を追跡し、活発に成長している個体群を特定し、研究のモデリングに使用する複製率を測定するために、すべてのゲノム関係マイクロバイオーム研究に適用できる。
 自然集団の分裂細胞は、平均して複数コピーのゲノムを含んでいる(論文図1)。成長している非同期の細菌集団では、細胞にはさまざまな程度に複製されるゲノムが含まれており、複製の起点から終点までの平均ゲノムコピー数が徐々に減少する(ref.1)。この減少は、完全なゲノム全体のDNAシーケンスカバレッジの変化を測定することで検出できる。バクテリアのゲノム複製は単一の複製起点から双方向に進行するため、複製の起点と終点はこのカバレッジパターンに基づいて推定できる(ref.2)。多種多様な細菌のGC skewおよびゲノムカバレッジの分析により、この複製メカニズムが広く適用可能であることが示されている。さらに、細菌培養のアーリィステージの研究では、細胞がゲノム複製を複数ラウンド同時に開始することにより、より速い分裂を達成できることが明らかになった(ref.9)。
 Koremらは細菌の複製率を測定するために、複製の終点と比較した起点でのシーケンスカバレッジの比率を使用した(ref.8)。複製起点と終点がそれぞれカバレッジピークとトラフに対応するため、著者はメソッドにPTR(peak-to-trough ratio)という名前を付けた。彼らはPTRを適用して、ヒトマイクロバイオーム内の特定の細菌の複製率を計算したが、シーケンシングリードを対象の細菌の完全な閉じた環状リファレンスゲノムにマッピングするための要件は、大きな制限である。細菌の大部分は未培養のままで、リファレンスゲノムが不足している。
 メタゲノミクスでは、リファレンスゲノムを欠く細菌や古細菌のドラフトゲノムを定期的に生成する(論文図1および補足図1)。多くの場合、これらの生物はほとんど知られていない微生物門からのものであり、データベースに完全なゲノムがある生物とは大きく異なる。単一のエコシステムから数百または数千のドラフトまたはほぼ完全なゲノムを回復できる場合がある。カバレッジベースのレプリケーションレート分析を拡張して、これらのドラフトゲノムのシーケンスカバレッジトレンドに基づく測定を可能にする方法を紹介する。フラグメントの順序が不明であるという事実にもかかわらず、この方法は機能する。 PTRとは異なり、このアプローチは、、大多数の細菌の完全なゲノムが利用できない土壌などの複雑なシステムを含む、事実上すべての自然または人工のエコシステムに適用できる。

 

https://twitter.com/search?q=iRep%20genome&src=typed_query

 

テストラン

macos101.4でテストした()。

本体 Github

https://github.com/christophertbrown/iRep

#bioconda (link)
conda create -n iRep -y
conda activate iRep
conda install -c bioconda -y iRep

#pip
pip install iRep

> iRep -h

$ iRep -h

usage: iRep [-h] -f [F [F ...]] -s [S [S ...]] -o O [--pickle] [-mm MM] [--sort] [-M M] [--no-plot] [--no-gc-correction] [-ff] [-t T]

 

# calculate the Index of Replication (iRep)

 

optional arguments:

  -h, --help          show this help message and exit

  -f [F [F ...]]      fasta(s)

  -s [S [S ...]]      sorted sam file(s) for each sample (e.g.: bowtie2 --reorder)

  -o O                prefix for output files (table and plots)

  --pickle            save pickle file (optional)

  -mm MM              max. # of read mismatches allowed (default: 1)

  --sort              optional - sort the sam file

  -M M                max. memory (GB) for sorting sam (default: 100)

  --no-plot           do not plot output

  --no-gc-correction  do not correct coverage for GC bias before calculating iRep

  -ff                 overwrite files

  -t T                threads (default: 6)

bPTR -h

$ bPTR -h

usage: bPTR [-h] [-f [F [F ...]]] [-s [S [S ...]]] -m M [-c C] -o O [-pickle PICKLE] -plot PLOT [-mm MM] [-p P] [--sort] [-b B] [-ff] [-t T]

 

# est. growth rate from peak-to-trough coverage ratio

 

optional arguments:

  -h, --help      show this help message and exit

  -f [F [F ...]]  fasta(s)

  -s [S [S ...]]  sorted sam file(s) for each sample (e.g.: bowtie2 --reorder)

  -m M            method for detecting Ori/Ter of replication: gc_skew or coverage

  -c C            pre-computed data from growth_ptr.py (optional: pickle file)

  -o O            filename for output table

  -pickle PICKLE  filename for output pickle file (optional)

  -plot PLOT      filename for coverage profile plots (default: no plots)

  -mm MM          maximum number of mapping mismatches allowed (default: no limit)

  -p P            number of permutations to perform (default: None)

  --sort          sort the sam file

  -b B            max memory (GB) for sorting sam (default: 100)

  -ff             overwrite files

  -t T            threads (default: 6)

 

 

 

テストラン

bPTRは完全長のゲノムに、iRepは高品質のドラフトゲノム(>=75% complete, <=175 fragments/Mbp sequence, and <=2% contamination)に使う。

 

iRepのラン。ドラフトゲノムのFASTAファイルとbowtie2でソート(--reorderをつける)してアラインメントしたSAMファイルを指定する。

git clone https://github.com/christophertbrown/iRep.git
cd iRep/
iRep -f sample_data/l_gasseri.fna -s sample_data/l_gasseri*sam -o test.iRep
  • -f     fasta(s)
  • -s    sorted sam file(s) for each sample (e.g.: bowtie2 --reorder)
  • -o    prefix for output files (table and plots)

出力

結果のtsvファイルと複製率計算に使用されたゲノムカバレッジプロットを示すPDFが出力される。

> cat test.iRep.tsv

$ cat test.iRep.tsv 

## index of replication (iRep) - thresholds: min cov. = 5, min wins. = 0.98, min r^2 = 0.9, max fragments/Mbp = 175, GC correction min r^2 = 0.0

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 1.906559215638506 2.361137517138996

#

## un-filtered index of replication (iRep)

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 1.906559215638506 2.361137517138996

#

## raw index of replication (no GC bias correction)

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 1.9181206042659673 2.380084859373945

#

## r^2

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 0.9988996508720132 0.9942789514575139

#

## coverage

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 9.352049457279216 8.93781095577987

#

## % windows passing filter

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 100.00 100.00

#

## fragments/Mbp

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 1 1

#

## GC bias

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 0.062006224268363996 0.000816622280244355

#

## GC r^2

# genome sample_data/l_gasseri.fna-vs-l_gasseri_sample1-shrunk.sam sample_data/l_gasseri.fna-vs-l_gasseri_sample2-shrunk.sam

sample_data/l_gasseri.fna 0.009408843274407497 0.0004338746957109896

#

test.iRep.pdf

f:id:kazumaxneo:20200327192837p:plain

f:id:kazumaxneo:20200327192841p:plain

f:id:kazumaxneo:20200327192846p:plain


closely relatedなゲノムが存在するメタゲノムのデータからアセンブルしていることを想定している。bPTRもiRepも単離した菌のシーケンシングデータ向けではないので注意してください。
引用

Measurement of bacterial replication rates in microbial communities

Brown CT, Olm MR, Thomas BC, Banfield JF

Nat Biotechnol. 2016 Dec;34(12):1256-1263