macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

パンゲノム解析ツール PGAP

2019 7/6 誤字修正

 

 DNAシーケンシング技術の急速な発展に伴い、「Ten Thousand Microbial Genomes Project」や「NIH Human Microbiome Project(HMP)」(Peterson et al、2009)など多くの大規模な微生物ゲノムプロジェクトが処理されている。バクテリア全ゲノムシーケンスの蓄積はまた、生物学者に以前よりも大きなスケールで進化仮説を探索し、試験する機会を与える。 2005年、Tettelinらは新しい概念「pan-genome」を導入した(Tettelin et al、2005)。その後しばらくして、pan-genomeは、肺炎連鎖球菌(Hiller et al、2007)、インフルエンザ菌(Haemophilus influenzae)(Hogg et al、2007)、大腸菌(Escherichia coli)(Rasko et al、 2008年)などがの解析の洞察に使われ始めた。進化への洞察に加え、pan-genomeはレジオネラニューモフィラいくつかの病原体の株特異的ビルレンス因子を検出するために広く使用されている(D'Auria et al、2010)。コアゲノムの機能が変化する遺伝子をスキャンし、流行病の病原体を調べることで(Bayjanov et al、2010; Holt et al、2008)、逆ワクチン薬理ゲノミクス(Serruto et al、 2009)(wiki)により病原性細菌のワクチンを開発することの助けにもなる。

 1つのバクテリア集団についてpan-genome解析を可能な限り容易にするために、バクテリアパンゲノム解析のための高効率ツールを開発する大きな必要性がある。pan-genome解析のために使えるツールは、これまでPanseq(Laing et al、2010)およびPGAT(Brittnacher et al。、2011)だけだった(論文執筆時点)。 Panseqは、ゲノム配列の中の「コア」領域と「アクセサリー」領域を抽出し、コア領域間でSNPを検出することに優れている。しかし、それは与えられた株のpan-genomeプロファイルを提示し、進化の歴史を複数の物質で追跡し、機能的遺伝子の変異および function enrichmentを指摘する能力には不十分である。PGATは、ウェブベースのデータベースとして、オルソログのアサインメント、遺伝子内容の照会、配列の多型および代謝経路情報を統合している。しかしながら、これまでのところ、限られた種の分析結果のみをデータベースに提供し、ユーザからのゲノムデータを分析することはできない。著者らは、パンゲノム解析パイプライン(PGAP)と呼ばれる新しいスタンドアローンプログラムを開発した。PGAPは複数の機能モデルを統合し、バクテリアの進化の歴史を研究し、病原性のメカニズムを発見し、流行を予防し、防除するために使用できる。

 

 

f:id:kazumaxneo:20180908181921j:plain

Supplementaryより。

 

f:id:kazumaxneo:20180908181909j:plain

同名のツール NCBI prokaryotic genome annotation pipeline (PGAP) とは異なります。

 

 

インストール

依存

  • BLAST (2.2.12 or higher).
  • mafft
  • dnaml, dnadist, neighbor, seqboot, consense in PHYLIP (version 3.69)
  • mcl

SourceForge

https://sourceforge.net/projects/pgap/

ここではdockerイメージを使う。 

docker pull kastman/pgap

 > docker run --rm kastman/pgap

$ docker run --rm kastman/pgap

 

====== Pan-Genome Analysis Pipeline (PGAP) ======

                   Version 1.2.1

 

Usage:   perl PGAP.pl [Options]

 

Options: 

  --strains    String    Input strains nicknames, and join them with '+', for example: A+B+C

  --input      String    Input data directory 

  --output     String    Result output directory

 

  --cluster              Run homologous gene clustering

  --pangenome            Run pan-genome analysis

  --variation            Run homologous clusters variation analysis

  --evolution            Run evolution analysis

  --function             Run Function analysis

 

  --method     String    GF for GeneFamily method,  and MP for MultiParanoid method

                           for GF: fast, but not very accurate

                               evalue, score, indentity, coverage are employed

                           for MP: slow, but more accurate

                               score, coverage, local, global are employed

  --thread     Int       Number of processors to use in blastall. [default:1]

  --score      Int       Minimum score in blastall. [default:40]

  --evalue     Decimal   Maximal E-value in blastall. [default:1e-10]

  --coverage   Decimal   Minimum alignment coverage for two homologous proteins. [default:0.5]

  --local      Decimal   Minimum local alignment overlap in MP method. [default:0.25]

  --global     Decimal   Minimum global alignment overlap in MP method. [default:0.5]

  --identity   Decimal   Minimum alignment indentity for two homologous proteins. [default:0.5]

  --bootstrap  Int       Bootstrap times for phylogenetics tree. [default:1]

 

  --h or help            Display this message

 

 

ラン

解析するには、対象生物種それぞれについて、3種類のファイルが 必要(.pep for protein sequences, .nuc for nucleotide sequences and .function for annotation file. For each strain, these three type files should have the same prefix, )。,nucと.pepはそれぞれ遺伝子の塩基配列アミノ酸配列、.functionは1情報につき1行3列で情報を示したフォーマット。以下のように記載する(マニュアルより)。

f:id:kazumaxneo:20180908193758j:plain

1列目は.nucと.pepのヘッダー名と同じにする。2列目はCOGのID(無いなら"-")。

 

ジョブの開始

seq_dir=/path/to/input
out_dir=/path/to/output

docker run --rm\
-v "${seq_dir}":/input -v "${out_dir}":/output -w /pgap \
kastman/pgap perl ./PGAP.pl --strains $strains \
--input /input --output /output \
--cluster --pangenome --variation --evolution \
--function --method MP --thread 1

kastmanさんのnoteより: * the -w /pgap default working directory - this is important for PGAP.pl to correctly find sub-modules in the /pgap directory.

出力の詳細はPDFマニュアルを確認してください。

 

引用
PGAP: pan-genomes analysis pipeline
Zhao Y, Wu J, Yang J, Sun S, Xiao J, Yu J

Bioinformatics. 2012 Feb 1;28(3):416-8.