phylogenetic marker genesを検出し、marker genes全てを使って系統比較する自動化されたパイプライン ezTree

2019 3/9 docker pullリンク追記、インストールの流れ修正

2019 10/28誤字修正

2020 4/7 docker commnadの誤字修正

　メタゲノミクスおよびシングルセルゲノミクスは、様々な環境からの新規生物の発見および調査のための有望な方法として確立されている。 "microbial dark matter"という用語は、培養できない、微生物コミュニティからシーケンシングすることのみで研究される未培養生物を記述するために提案されたものであり[論文より　ref.1]、新たに回収された1000以上の未培養生物のゲノムを既存の系統樹に取り込み、新しい視点で系統樹を調べる研究も報告されている[ref.2]。より多くの研究が、多種多様な微生物コミュニティから抽出された新規ゲノムの解析に焦点を当てており[ref.3-11]、これらが環境で果たす役割について我々の知識が拡張されつつある。

　微生物コミュニティを調査するための最も一般的な手法の1つは、環境からゲノム配列を直接得ることを目指すメタゲノミクスである。計算科学のビニング技術[ref.13-22]は、メタゲノムから直接、個々の生物ゲノムを抽出するために開発された。回収されたゲノムの微生物多様性を理解し、新たに同定された種をtree of lifeに配置するために、phylogenetic marker genesが使用されてきた。最も広く採用されているphylogenetic marker geneの1つである16Sリボソーム RNAスモールサブユニットの遺伝子は、新しく回収された生物の分類法を探り、系統樹を構築するための「ゴールドスタンダード」として確立されている[ref.23,24]。しかし、16S rRNA遺伝子の互いに非常に相同性が高い領域のために、Meta-IDBA [ref.25]、SPAdes [ref.26]（紹介）、Ray Meta [ref.27]、MEGAHIT [ref.27]（紹介）などのBruijnグラフベースのメタゲノムアセンブラでメタゲノムからインタクトな16S rRNA遺伝子を集めるのは依然として非常に困難な課題である[ ref.28]。その結果、メタゲノムから回収されたゲノムは、通常、16S遺伝子を欠く（または非常に短い遺伝子断片のみからなる）ため、16S配列を用いて系統樹を構築することは不可能または非常に困難である。

　系統樹上の個体間の関係を精緻化するため、全ゲノム情報を使うことが提案されている[ref.30-33]。 16S遺伝子ベースの系統樹を補うために、コンカテネート（連結）されたタンパク質のツリー（trees based on combined protein data alignments）が提案され、潜在的により堅牢で有益である[ref.34]。連結されたタンパク質ツリーを構築するためには、研究で考慮されるすべての生物において一度だけ出現する遺伝子として定義されるphylogenetic marker genesを同定する必要がある[ref.35]。この基準を満たす遺伝子は、以前の研究で示されているように、原核生物種の系統樹関係を確実に再構築するためのマーカーとして用いられている[ref.36,37]。そのようなマーカー遺伝子セットを発見するための様々な試みがなされている。例えば、Ciccarelli et alは 191種のバクテリア種において31のマーカー遺伝子を同定し、高い分解能を持つ系統樹を構築した[ref.36]。他の人々によって、異なるマーカー遺伝子セットも報告されている[ref.35,37,38]。また、checkMソフトウェア（紹介）は、系統特異的マーカー遺伝子セットを発見し、メタゲノムからビニングされた原核生物ゲノムの完全性およびコンタミ率をチェックするために使用される[ref.39]。

　メタゲノムからビニングされた個々のゲノムはめったに完全ではないので、予め定められたマーカー遺伝子セット由来の遺伝子のいくつかは、回収されたゲノムから失われている可能性がある。さらに、通常は数十または数百のゲノムが含まれるので、系統樹を構築するためのマーカー遺伝子セットを同定するために、各ゲノムの各遺伝子のコピー数を綿密にチェックする必要がある。新たに回収された原核生物のゲノムから遺伝子を予測する努力を軽減するために、Prodigal [ref.40]やFragGeneScan [ref.41]のような信頼性の高い遺伝子予測ツールが開発されているが、ゲノムのセットの分類学的関係を推測するため、一群のゲノム中のマーカー遺伝子を自動的に同定するためのツールは依然として必要とされている。

　ここでは、原核生物ゲノムのセットからマーカー遺伝子および系統樹を推定するための計算パイプラインを紹介する。パイプラインは、新しく回収された、断片化された、または不完全なゲノムを含む一連のゲノムをとり、入力ゲノムからタンパク質コード遺伝子を予測し、すべてのゲノムによって共有されるマーカー遺伝子を同定し、マーカー遺伝子の連結タンパク質のアラインメントに加え、最尤（ML）法の系統樹を作成する。新しく回収されたいかなるクオリティのゲノムを持つユーザーも、このパイプラインで非常に簡単に系統樹を構築し、回収された種の分類を推論することができる。

　このパイプラインは、fasta形式の一連の原核生物ゲノム配列を取り込むように設計されている。ゲノム配列は、完全、断片、または不完全であってもよい。ユーザーが好む場合、ゲノム全体ではなくタンパク質配列を入力することもできる。パイプラインのワークフローには、論文図1に示すように、ゲノムからのタンパク質コード遺伝子の予測、遺伝子への機能プロファイルの割り当て、ゲノムセットのシングルコピーマーカー遺伝子の特定、および系統樹のアライメントが含まれる。

ezTreeのワークフロー。論文より転載。

ezTreeに関するツイート

インストール

mac os 10.13、Anaconda3.5.1でテストした。

依存

HMMER3 (Latest. Assuming that we get version 3.1b2)
muscle (Latest. Assuming that we get version 3.8.31)
Gblocks (Latest. Assuming that we get version 0.91b)
Prodigal (Latest. Assuming that we get version 2.63)
FastTree (Latest. Assuming that we get version 2.1.9)

#Anaconda環境ならcondaで導入できる
conda install -c bioconda -y hmmer==3.1b2 muscle==3.8.31 gblocks==0.91b prodigal==2.6.3 fasttree==2.1.9

本体　Github（マニュアルPDFもあり）

git clone https://github.com/yuwwu/ezTree.git
cd ezTree/

> perl ezTree

$ perl ezTree

Please input both a list file consisting of genomes and a output header.

ezTree - building phylogenetic trees for a set of genomes

version 0.1

Usage:

ezTree

-list (list file of genomes)

-out (output header)

(Either -list or -dir is required for running ezTree)

(Other parameters)

[-thread (thread num; default 4)]

[-evalue (evalue for HMMER; default 1e-10)]

[-model (JTT, WAG, or LG evolutionary models; default JTT)]

Please read README file for more details.

kamisakBookpuro:ezTree kamisakakazuma$ less ezTree

kamisakBookpuro:ezTree kamisakakazuma$

kamisakBookpuro:ezTree kamisakakazuma$ perl ezTree

Please input both a list file consisting of genomes and a output header.

ezTree - building phylogenetic trees for a set of genomes

version 0.1

Usage:

ezTree

-list (list file of genomes)

-out (output header)

(Either -list or -dir is required for running ezTree)

(Other parameters)

[-thread (thread num; default 4)]

[-evalue (evalue for HMMER; default 1e-10)]

[-model (JTT, WAG, or LG evolutionary models; default JTT)]

Please read README file for more details.

dockerイメージも上げておきます（version 0.1）。

docker pull kazumax/eztree

#currentと/dataをシェアしてラン
docker run -itv $PWD:/data/ kazumax/eztree
source ~/.profile

cd ~/ezTree/
perl ezTree -h

実行方法

テストデータを解析する。

１、リストファイルの準備

cd ezTree/test_example/

#ランにはfastaファイル名のリストが必要。lsで作成する。
ls *.fasta > listfile

２、実行

../ezTree -list listfile -out output -thread 8 -evalue 1e-5

-thread (thread num; default 4)]
-evalue (evalue for HMMER; default 1e-10)]

初回はPFAMのデータベースダウンロードも実行される。eztreeのルートディレクトリにdataディレクトリができる。

テストデータには23のProcaryotesゲノムが含まれており、テストジョブが完了するまでかなりの時間がかかる。実行時は9時間ほどかかった。

出力されるファイル

1. .aln: the concatenated alignment file of all marker proteins.
2. .nwk: the Newick tree for the genomes defined in the list file
3. .pfam: the identified single copy marker genes in terms of PFAM
4. .work directory: this is the work directory of ezTree. If one needs to re-run ezTree,
simply input the same “-out” parameter. ezTree will locate all temporary files in the

output.pfamが同定されたマーカー遺伝子になる。今回は1378遺伝子見つかった。

>head output.pfam

$ head out.pfam

PF00238.18 Ribosomal_L14, Ribosomal

PF00398.19 RrnaAD, Ribosomal

PF00366.19 Ribosomal_S17, Ribosomal

PF00075.23 RNase_H, RNase

PF00828.18 Ribosomal_L27A, Ribosomal

PF04997.11 RNA_pol_Rpb1_1, RNA

PF02219.16 MTHFR, Methylenetetrahydrofolate

PF04551.13 GcpE, GcpE

PF14437.5 MafB19-deam, MafB19-like

PF00475.17 IGPD, Imidazoleglycerol-phosphate

MEGA7で.nwkを開いた。

f:id:kazumaxneo:20180913070129p:plain

引用

ezTree: an automated pipeline for identifying phylogenetic marker genes and inferring evolutionary relationships among uncultivated prokaryotic draft genomes
Wu YW

BMC Genomics. 2018 Jan 19;19(Suppl 1):921.

PhyloPhlAn (Segata et al,. 2014) も簡単に紹介しています。