バクテリア、アーキア、プラスミドの複製起点（ori）データベース DoriC

2019 6/21 誤字修正、コマンド修正

2023/10/19 URL修正

　すべての生物において、DNA複製は複製機構の構築段階で正確に制御されている（ref.1）。複製起点は特定のゲノム遺伝子座であり、そこでは二本鎖DNAがほどけて一本鎖DNA鋳型を形成して新しい鎖の合成を開始する。大部分の細菌において、複製起点（oriC）は、主要なイニシエータータンパク質DnAによって認識されるいくつかのDnaAボックスモチーフを含む。また複製起点（oriC）にはAT含有量の高いDNA unwinding element （DUE）を含む領域、ここでは一本鎖DNAもDnaAにより認識される（ref.2〜5）、も含まれる。ATリッチなDNA unwinding elementは古細菌複製起点にも不可欠であることがわかっており、これはorigin recognition proteins （ref.6,7）の結合部位として働くorigin recognition boxes (ORBs) に隣接している。多数のプラスミドにおいて、origin of vegetative replication (oriV) はしばしばダイレクトリピートまたはiteron DNA配列（wiki）からなり、これらはRepタンパク質と相互作用して複製開始の過程で初期複合体を形成する（ref.8）。oriVのiteronの位置の近くにATに富む領域もあり、これはDNA巻き戻し要素として働く（ref.9）。

　複製起点が通常、dnaA、orc1 / cdc6およびrep遺伝子などの複製関連遺伝子の隣にあることは興味深い。chromosomeおよびプラスミド上の原核生物複製起点の類似構造は、同じ枠組みに基づいて起源予測のためのアルゴリズムを設計する機会を提供する。当初、Ori-Finderは細菌のchromosome上のoriC領域を同定するために開発された（ref.10）。

　3つのドメインの独立したドメインの１つとして、ほとんどの古細菌は地球上の様々な極端な環境に存在しており、特定のhabitsが実験的方法による複製起源の同定を困難にしている（ref.11）。したがって、ウェブベースのツールOri-Finder2は、古細菌ゲノムのoriC領域をin silicoで予測するために開発されたものであり、予測された結果は実験室での古細菌起源の同定に役立つ可能性がある（ref.12）。

　プラスミドは、chromosome外の自己複製する遺伝要素であり、細菌、古細菌、酵母、そしていくつかの高等真核細胞に広く見られる（ref.8）。プラスミドはしばしば抗生物質耐性やtoxin–antitoxinシステムのような宿主細胞にいくつかの特別な特徴をもたらす遺伝子を持っている（ref.13）。したがって、プラスミドの自律的なDNA複製は細胞の生存にとって重要である。Vegetative replicationの起源はプラスミドの最も重要な要素の一つである。これまで、oriVの位置と特徴は、RK2、F、P1、R6K、pPS10プラスミドなどの広範囲のプラスミドでよく理解されていた（ref.14–18）。しかしながら、シーケンシングされた多数のプラスミド上でoriVを自動的に同定するためにバイオインフォマティクスツールが緊急に必要とされている。

　複製起点に関する関連研究を容易にするために、Ori-Finderシステムの予測がオンラインデータベースにまとめられた（ref.19–21）。 2007年に、oriC領域のデータベースであるDoriCが最初に公に利用可能になり、2013年に、DoriC 5.0は細菌ゲノムと古細菌ゲノムの両方の複製起点を含めた（ref.22、23）。過去6年間で、次世代シーケンシング技術の急速な進歩と様々な微生物ゲノムプロジェクトからのシーケンシングされたゲノムの蓄積がDoriCの拡大を促進しており、この拡大されたデータベースはDoriC 10.0としてここに提示される。はじめてのプラスミドDoriCデータベースとOri-Finderシステムは、複製起点の構造と機能のより良い理解を確実にし、そしてDNA複製における開始段階の調節メカニズムへの新しい洞察を提供する。これまでのところ、DoriCに保存されている予測の多くは現在実験室で検証されており、過去のDoriCデータベースとOri-Finderシステムに基づくより多くのアプリケーションが我々の最近のarticleで見直された（ref.24, pubmed）。

　今回のリリースでは、DoriCの内容は次のようにバージョン5.0と比較して大幅に改善されている。（i）細菌chromosome上のoriCは4倍の1633から7580に増加した。（ii）古細菌のchromosome上のoriCは86から226に増加した。（iii）NCBI recordから検索された348の注釈付き起点および修正Ori-Finderシステムによって861の予測起点を含む1209のプラスミド複製起点が初めて提示された。（iv）originの機能に重要な新規リピートトリヌクレオチドモチーフである DnaA-trio要素を含む、細菌複製起点中のより多くの配列要素が組み込まれる。 DnaA-trioは、DoriCによるバイオインフォマティクス分析によって細菌界全体で高度に保存されている、origin の巻き戻しおよびDNAヘリカーゼローディングにおいて役割を果たす（ref.20）。 DnaA-trio様配列をDoriCデータベースで検索した後、その情報を対応するoriCレコードに追加した。さらに、データベースのユーザーインターフェースをより便利で直感的にわかるように再設計した（論文図1）。（以下略）

使い方

DoriCにアクセスする。

version12はこちら

以下、古いバージョンでの説明

Browseからbacteira、Archaea、plamidのいずれかを選択する。

f:id:kazumaxneo:20190620215431p:plain

登録されている配列が表示される。

f:id:kazumaxneo:20190620215623p:plain

DoriC accession numberをクリックすることで、ポジションなどの詳細を表示できる。

f:id:kazumaxneo:20190620215740p:plain

Z-curves (bacteira、Archaeaのみ)

f:id:kazumaxneo:20190620221938p:plain

Browse in NCBI

f:id:kazumaxneo:20190620220620p:plain

BLAST検索はテスト時動作しなかった。

downloadからはRefseq IDや配列を含むCSVファイルをダウンロードできる。

http://tubic.org/doric/public/index.php/download

解凍。bacteira、Archaea、plamid３つのCSVがある。

f:id:kazumaxneo:20190620222731p:plain

excelで開いた。

f:id:kazumaxneo:20190620223326p:plain

おまけ

ori配列を使ってアセンブルを支援する。

awkでCSVファイルからfasta形式に変換する。変換後、EMBOSSパッケージのseqret (紹介) を使い、エラーを除きつつ適当な文字数で改行。

#ubuntuで実行
#bacteira
awk 'BEGIN{FS=","}{ OFS = "" }{print ">", $3, "\n", $NF}' tubic_bacteria.csv \
 | sed '1,2d' - > bacteira_oriC.fasta

#archaea
awk 'BEGIN{FS=","}{ OFS = "" }{print ">", $3, "\n", $NF}' tubic_archaea.csv \
 | sed '1,2d' - > archaea_oriC.fasta 

#plasmid
awk 'BEGIN{FS=","}{ OFS = "" }{print ">", $3, "\n", $NF}' tubic_plasmid.csv \
 | sed '1,2d' - > plasmid_ori.fasta

#emboss seqret
seqret archaea_oriC.fasta archaea_oriC_corrected.fasta
seqret bacteira_oriC.fasta bacteira_oriC_corrected.fasta
seqret plasmid_ori.fasta plasmid_corrected.fasta

*$NFで最後のカラムのみ出力。OFS = ""でスペースを排除。sedに渡して先頭のコメント行（awk処理で2行になっている）を排除。EMBOSSのseqretはゲノム登録用に開発されており、潜在的なエラーをあらかた排除できる。fold -w "INT" やperl/awkよりオススメ。

De novoアセンブル支援に使う。

BandageにGFA/fastgを読み込みblast検索する。

f:id:kazumaxneo:20190621010852p:plain

完全ではないが、メタゲノムのアセンブリから、アーキア、バクテリア、プラスミドを見分けるのに役立つと思われる。

引用

DoriC 10.0: an updated database of replication origins in prokaryotic genomes including chromosomes and plasmids
Hao Luo, Feng Gao
Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D74–D77

DoriC 5.0: an updated database of oriC regions in both bacterial and archaeal genomes

Gao F, Luo H, Zhang CT

Nucleic Acids Res. 2013 Jan;41(Database issue):D90-3

DoriC: a database of oriC regions in bacterial genomes

Gao F, Zhang CT

Bioinformatics. 2007 Jul 15;23(14):1866-7. Epub 2007 May 12

2023/10/19

DoriC 12.0: an updated database of replication origins in both complete and draft prokaryotic genomes
Mei-Jing Dong, Hao Luo, Feng Gao

Nucleic Acids Res. 2023 Jan 6;51(D1):D117-D120.

参考

bioinformatics - Identifying the origin of replication of an unannotated *E. coli* plasmid - Biology Stack Exchange