2019 7/6 誤字修正
DNAシーケンシング技術の急速な発展に伴い、「Ten Thousand Microbial Genomes Project」や「NIH Human Microbiome Project(HMP)」(Peterson et al、2009)など多くの大規模な微生物ゲノムプロジェクトが処理されている。バクテリア全ゲノムシーケンスの蓄積はまた、生物学者に以前よりも大きなスケールで進化仮説を探索し、試験する機会を与える。 2005年、Tettelinらは新しい概念「pan-genome」を導入した(Tettelin et al、2005)。その後しばらくして、pan-genomeは、肺炎連鎖球菌(Hiller et al、2007)、インフルエンザ菌(Haemophilus influenzae)(Hogg et al、2007)、大腸菌(Escherichia coli)(Rasko et al、 2008年)などがの解析の洞察に使われ始めた。進化への洞察に加え、pan-genomeはレジオネラニューモフィラいくつかの病原体の株特異的ビルレンス因子を検出するために広く使用されている(D'Auria et al、2010)。コアゲノムの機能が変化する遺伝子をスキャンし、流行病の病原体を調べることで(Bayjanov et al、2010; Holt et al、2008)、逆ワクチン薬理ゲノミクス(Serruto et al、 2009)(wiki)により病原性細菌のワクチンを開発することの助けにもなる。
1つのバクテリア集団についてpan-genome解析を可能な限り容易にするために、バクテリアパンゲノム解析のための高効率ツールを開発する大きな必要性がある。pan-genome解析のために使えるツールは、これまでPanseq(Laing et al、2010)およびPGAT(Brittnacher et al。、2011)だけだった(論文執筆時点)。 Panseqは、ゲノム配列の中の「コア」領域と「アクセサリー」領域を抽出し、コア領域間でSNPを検出することに優れている。しかし、それは与えられた株のpan-genomeプロファイルを提示し、進化の歴史を複数の物質で追跡し、機能的遺伝子の変異および function enrichmentを指摘する能力には不十分である。PGATは、ウェブベースのデータベースとして、オルソログのアサインメント、遺伝子内容の照会、配列の多型および代謝経路情報を統合している。しかしながら、これまでのところ、限られた種の分析結果のみをデータベースに提供し、ユーザからのゲノムデータを分析することはできない。著者らは、パンゲノム解析パイプライン(PGAP)と呼ばれる新しいスタンドアローンプログラムを開発した。PGAPは複数の機能モデルを統合し、バクテリアの進化の歴史を研究し、病原性のメカニズムを発見し、流行を予防し、防除するために使用できる。
Supplementaryより。
同名のツール NCBI prokaryotic genome annotation pipeline (PGAP) とは異なります。
インストール
依存
- BLAST (2.2.12 or higher).
- mafft
- dnaml, dnadist, neighbor, seqboot, consense in PHYLIP (version 3.69)
- mcl
https://sourceforge.net/projects/pgap/
ここではdockerイメージを使う。
docker pull kastman/pgap
> docker run --rm kastman/pgap
$ docker run --rm kastman/pgap
====== Pan-Genome Analysis Pipeline (PGAP) ======
Version 1.2.1
Usage: perl PGAP.pl [Options]
Options:
--strains String Input strains nicknames, and join them with '+', for example: A+B+C
--input String Input data directory
--output String Result output directory
--cluster Run homologous gene clustering
--pangenome Run pan-genome analysis
--variation Run homologous clusters variation analysis
--evolution Run evolution analysis
--function Run Function analysis
--method String GF for GeneFamily method, and MP for MultiParanoid method
for GF: fast, but not very accurate
evalue, score, indentity, coverage are employed
for MP: slow, but more accurate
score, coverage, local, global are employed
--thread Int Number of processors to use in blastall. [default:1]
--score Int Minimum score in blastall. [default:40]
--evalue Decimal Maximal E-value in blastall. [default:1e-10]
--coverage Decimal Minimum alignment coverage for two homologous proteins. [default:0.5]
--local Decimal Minimum local alignment overlap in MP method. [default:0.25]
--global Decimal Minimum global alignment overlap in MP method. [default:0.5]
--identity Decimal Minimum alignment indentity for two homologous proteins. [default:0.5]
--bootstrap Int Bootstrap times for phylogenetics tree. [default:1]
--h or help Display this message
ラン
解析するには、対象生物種それぞれについて、3種類のファイルが 必要(.pep for protein sequences, .nuc for nucleotide sequences and .function for annotation file. For each strain, these three type files should have the same prefix, )。,nucと.pepはそれぞれ遺伝子の塩基配列とアミノ酸配列、.functionは1情報につき1行3列で情報を示したフォーマット。以下のように記載する(マニュアルより)。
1列目は.nucと.pepのヘッダー名と同じにする。2列目はCOGのID(無いなら"-")。
ジョブの開始
seq_dir=/path/to/input
out_dir=/path/to/output
docker run --rm\
-v "${seq_dir}":/input -v "${out_dir}":/output -w /pgap \
kastman/pgap perl ./PGAP.pl --strains $strains \
--input /input --output /output \
--cluster --pangenome --variation --evolution \
--function --method MP --thread 1
kastmanさんのnoteより: * the -w /pgap default working directory - this is important for PGAP.pl to correctly find sub-modules in the /pgap directory.
出力の詳細はPDFマニュアルを確認してください。
引用
PGAP: pan-genomes analysis pipeline
Zhao Y, Wu J, Yang J, Sun S, Xiao J, Yu J
Bioinformatics. 2012 Feb 1;28(3):416-8.