2019 5/30 タイトル修正、関連ツール追加
バクテリアに感染するウイルスであるファージは、バイオインフォマティクスに独自の課題をもたらす。どのくらいの量のDNAをキャプシドにパッケージングすることができるかには限界があり、したがってファージゲノムは一般に短く、典型的には20〜100kbの範囲である。
必然的に、それらのゲノムはコンパクトである:ファージ遺伝子はそれらの細菌ホモログより短く、しばしば同時に転写され、そして隣接するオープンリーディングフレームはしばしば重なり合う(Kang et al、2017)。いくつかの場合では、ファージ遺伝子は互いにコードされている(Cahill et al、2017; Summer et al、2007)。対照的に、細菌遺伝子は一般に長く、遺伝子間スペーサーによって分離され、そして鎖を頻繁に交換する(Kang et al、2017)。ファージゲノム中の遺伝子を同定するために特別に設計されたバイオインフォマティクスツールはないので、細菌遺伝子を同定するために設計されたアルゴリズムが典型的に使用される(McNair et al、2018)。例えば、2016年10月14日から8月1日の間に公開された31のファージゲノムからは、GeneMarkソフトウェア(GeneMark / GeneMarkS / GeneMark.hmm)によって10ファージのゲノム遺伝子が同定され、RASTによって10ファージからゲノム遺伝子が同定され、Glimmerによって7つのファージから遺伝子を同定され、Geneious、NCBI ORF Finder、PHAST ( コーラーにGlimmerを使う(Arndt et al., 2016))、PROKKA ( コーラーにProdigalを使う( Seemann、2014))によって3つのファージゲノムから遺伝子が同定され、Prodigalによって2つのファージゲノムから遺伝子が同定され、MetaVir、RASTtk、SerialCloner、またはSnapGeneによって1つのファージゲノムから遺伝子が同定された(補足表1。多くの文献ではファージ中の遺伝子を同定するためにいくつかの異なるツールが用いられた)。これらのアルゴリズムはそれぞれ、短いゲノムでは利用できない情報と不可能な計算に依存している。例えば、普遍的なトレーニングセットを構築するのに使用できる保存された遺伝子はファージゲノムには存在せず(Rohwer and Edwards、2002)、遺伝子が少ないということは開始コドンを同定するのに使用される統計が正確でないことを意味する(Wu et al、2003)。そして、多くのファージ遺伝子やそれらがコードするタンパク質はデータベースにホモログを持たないため、類似性検索は信頼できない(Roux et al、2015)。positional nucleotide frequency(BesemerおよびBorodovsky、1999)、Glimmerによって使用される多変量アミノ酸使用量(Ouyang et al、2004)などの代替の遺伝子コールアプローチもあるが、これらは完全な細菌ゲノム用に設計されている。ファージゲノムでの使用に最適化されていない。
この論文では、ファージゲノム用に特別に設計された遺伝子同定のための新しい方法を紹介する。著者らは何百ものファージゲノムを研究することに基づいていくつかの推定をする。第一に、ファージはゲノムサイズに物理的限界があるので、ファージは非コードDNAを最小限しか含まないことに注目した。第二に、ファージ遺伝子が通常はDNAの同じ鎖上にあることを示した。おそらくそれらが同時転写されるからである(Akhter 2012; Kang et al、2017)。これらの観察結果に基づいて、著者らはファージ遺伝子同定に対する完全に新規なアプローチ、非コードDNA塩基および鎖交換を最小にするためのオープンリーディングフレームのタイリングを設計した。本著者らは、ファージゲノムを、オープンリーディングフレームがより有利であり、オーバーラップおよびギャップがそれほど有利ではない経路のネットワークとして扱う。 Bellman-Fordアルゴリズム(Bellman、1958; Ford、1956)を使用してこの加重グラフ問題を解決し、ファージゲノムのパラメーターを最適化することによってファージ遺伝子予測アルゴリズムを強化することができる。本著者の新しい予測を確認するための裏付けとなるデータがないので、予測されたタンパク質を探索するために大量の配列類似性検索に目を向けた。タンパク質をコードするゲノムの領域は、ファージゲノムの制御領域、複製領域、統合部位、およびその他のDNAベースの情報成分をコードする領域よりもアミノ酸レベルで保存される可能性が高い(Badger and Olsen、1999)。これらの検索は、予測されたファージ遺伝子が、細菌ゲノムにアノテーションを付けるように設計された既存のコーラーによって見逃されてきた新規タンパク質をコードし得ることを示した。
PHANOTATEアルゴリズムPHANOTATEがファージゲノムの遺伝子を同定するために取る最初のステップは、そのゲノムのオープンリーディングフレームから加重グラフを作成することである。デフォルトでは、3つの開始コドン(codonsstart = {ATG、GTG、TTG})と3つの終止コドン(codonsstop = {TAA、TAG、TGA})が許可されており、ORFのデフォルトの最小長は90ヌクレオチドである。有向加重グラフは、開始コドンと終止コドンを表すノード、および同じリーディングフレーム内で始端コドンと後続の終止コドンを結ぶ場合にORFを表すedgesで構成される。同じ鎖上のいずれかのリーディングフレームにおいて、エッジが終止コドンを次の開始コドンに連結する場合、またはedgesが終止コドンを代替鎖の次の終止コドンに連結する場合のギャップ。あるいは、エッジが同じ鎖上の他のリーディングフレーム内の終止コドンを先行開始コドンに、または代替鎖上の先行終止コドンに連結する場合は重複する。ファージが300 bp以上の非翻訳DNAを持つことはめったにないので、そして計算上の負担を減らすために、我々は互いに±300 bp以内のORFのみを接続する。 ORFのない非常に大きなスパンがある場合は、領域の両側にORFを線形のペナルティで接続する。
(以下略)
インストール
macos10.14のpython3.6.8環境でテストした。
git clone --recursive git@github.com:deprekate/PHANOTATE.git
cd PHANOTATE; make
> ./phanotate.py -h
$ ./phanotate.py -h
usage: phanotate.py [-opt1, [-opt2, ...]] infile
PHANOTATE: A phage genome annotator
positional arguments:
infile input file in fasta format
optional arguments:
-h, --help show this help message and exit
-o OUTFILE, --outfile OUTFILE
where to write the output [stdout]
-f {tabular,genbank,fasta}, --outfmt {tabular,genbank,fasta}
format of the output [tabular]
-d, --dump
実行方法
ファージゲノムを選択する。
./phanotate.py tests/NC_000866.1.fasta -o orfs
> head orfs
$ head orfs
#id: gi|29366675|ref|NC_000866.4|
#START STOP FRAME CONTIG SCORE
2189 12 - gi|29366675|ref|NC_000866.4| -2640701113753848747.990484014
2403 2200 - gi|29366675|ref|NC_000866.4| -880.0366130380943191717409210
2751 2458 - gi|29366675|ref|NC_000866.4| -10.69907190874495509840168142
2954 2850 - gi|29366675|ref|NC_000866.4| -1.855008551297407176654544641
3351 2971 - gi|29366675|ref|NC_000866.4| -35681.83939418135981414685025
3549 3457 - gi|29366675|ref|NC_000866.4| -0.7814081352715913157461136531
3767 3654 - gi|29366675|ref|NC_000866.4| -0.5777864114719027677732931362
5328 3778 - gi|29366675|ref|NC_000866.4| -722928608671989.3625065402022
予測されたorfsが出力される。
引用
PHANOTATE: A novel approach to gene identification in phage genomes
Katelyn McNair1, Carol Zhou2, Elizabeth A. Dinsdale3, Brian Souza2, and Robert A. Edwards
Bioinformatics, Published: 25 April 2019
関連