PGAPとPGAP-Xを組み込んだバクテリアのパンゲノム解析webサーバー PGAweb

2019 7/21追記

2019 10/2 コードエラー修正

2019 11/2 誤字修正

"PGAP-X: extension on pan-genome analysis pipeline"より

　パンゲノムの概念は2005年に提案されて以来[ref.1、2]、過去10年間でバクテリアゲノムの進化と動態を調査するために急速に採用されてきた[ref.3、6]。最近では、ウイルス[7]、真菌[ref.8]、植物[ref.9]の比較ゲノム解析にも広く利用されている。バクテリアゲノムのパンゲノム解析をより簡単かつ効率的にするために、Panseq [ref.10]、PGAT [ref.11]、PanCGHweb [ref.12]、PanGP [ref.13]、ITEP [ref.14]、PGAP [ref.15]を含むいくつかのプログラムとデータベースが開発されている。初期のプログラムやデータベースは主に限られた機能解析に焦点を合わせていたが、PGAPは機能遺伝子のクラスター分析、パンゲノムプロファイル分析、機能遺伝子の変異分析、種進化分析および遺伝子クラスターの機能強化分析を含む5つの共通分析モジュールを統合する。公開後、PGAPは60カ国以上から4000回以上ダウンロードされ、Mycobacterium [ref.16]、Bifidobacterium [ref.17]、Lactococcus [ref.18]などのさまざまな細菌のパンゲノム解析に広く使用されてきた。著者らの知る限り、PGAPはPanseqと共に、2014年末に最も人気のあるパッケージと報告された[ref.19]。

　しかし、パンゲノムツールの終わりのない改善は、データの解釈と視覚化である。これは、より良いデータマイニングの結果と、研究とpublicationのための質の高いグラフィックを提供する。過去数年間で、パンゲノムサイトからのデータを視覚化するために、いくつかのスタンドアロンプログラムとWebベースのサーバーが開発されてきた。しかし、これらのプログラムとサーバーは非常に限られた機能しか提供していない。さらに、それらはゲノム構造の観点からゲノムおよび遺伝子の両方の内部でオルソログ関係および遺伝的変異を示すことができない。この問題に取り組むために、著者らはゲノム指向のソフトウェア、PGAP-Xを開発した。これはゲノム構造の視界からパンゲノム分析を実行する。 PGAP-Xは独立してデータ分析を実行するだけでなく、結果データを直接視覚化して解釈する。同様の機能を持つ他のプログラムによって生成された結果データは、互換性のあるデータ形式に変換された後、さらに分析および視覚化するためにPGAP-Xにインポートすることもできる。 PGAP-Xは、ゲノム構造において高い類似性を有する、同じ種またはclosely relatedな種からのそれらの株についてのゲノム構造および遺伝子含有量の多様性を十分に分析および提示するために使用され得る。

　PGAP-Xでは、分析プロセスは論理的に3つの層に分割されている（論文図1）。データインタフェース層、データ分析層、およびデータ視覚化層である。ユーザーは、データインターフェース層を使用して、パラメータを簡単にカスタマイズし、入力および出力データを管理できる。計算はデータ分析層を介して実行され、結果データはデータ視覚化層によって視覚化される。データ分析および可視化のためのすべてのモジュールは、それらの機能として４つの部分に編成することができる。１）全ゲノム配列アラインメントおよびゲノム構造の可視化。２）オルソロガス遺伝子クラスタリングおよび保存による遺伝子分布の可視化。３）全ゲノムプロファイル分析および全ゲノムプロファイル曲線の可視化。４）遺伝子およびゲノム規模の両方からの変異分析および可視化。

（以下略）

”PGAweb: A Web Server for Bacterial Pan-Genome Analysis”より

　近年の微生物ゲノムデータの天文学的な増加は、種内および種間の全ゲノム分析のためのバイオインフォマティックツールに対する強い需要をもたらしている。この論文では、2つの主要なパンゲノム解析モジュール、PGAPとPGAP-Xを組み込んだ、バクテリアのパンゲノム解析のためのユーザーフレンドリーなWebベースのツールPGAwebを紹介する。 PGAwebは、オルソロガスクラスタリング、パンゲノムプロファイリング、変異と進化解析、および機能分類を含む、インタラクティブでカスタマイズ可能な主要機能を提供する。 PGAwebは、バクテリアゲノムのダイナミクスと進化を直感的に理解するのに役立つ、さまざまな視覚化手法を用いたゲノム構造ダイナミクスと配列多様性の特徴を提示する。 PGAwebはパラメータをワンクリックで設定できる直感的なインターフェースを持ち、http://PGAweb.vlcc.cn/で無料で利用できる。

PGAP-X HP

ソースコード、コンパイルされたプログラムをダウンロードできる。

PGAwebマニュアル

Document

パンゲノムとは何かについては2005年のペーパーを読んでください。言葉の定義から説明されています。

https://www.sciencedirect.com/science/article/pii/S0959437X05001759?via%3Dihub

Pan-genomicなアプローチでバクテリアの種について研究した報告はいくつもあります。ここでは以下の論文リンクを載せておきます。

https://www.ncbi.nlm.nih.gov/pubmed/29802996

植物の例: イネ

https://www.nature.com/articles/s41586-018-0063-9

入力ファイル

exampleデータリンク

１、PGAP-Xの場合 （リンク）

入力ファイル形式はゲノム全長のFASTAファイルとそのテーブルファイルになる。テーブルファイルはNCBI genbankから変換するスクリプトが公開されているので、それを使えば良い。入力ファイルの拡張子以外は同じ名前で統一、suffixはFASTAが".fna"、テーブルファイルは".ptt"にする。すなわち、

GCF_000007045.1_ASM704v1_cds_from_genomic.fna

GCF_000007045.1_ASM704v1_cds_from_genomic.ptt

のようなファイルを準備する。

genbank (new format)からpttに変換するスクリプトがあるので（*1より）、それを使って変換する。BioperlのSeqIOが必要（参考）。

create ptt from genbank format file

#!/usr/bin/env perl
use strict;
use Bio::SeqIO;

# This script takes a GenBank file as input, and produces a
# NCBI PTT file (protein table) as output. A PTT file is
# a line based, tab separated format with fixed column types.
#
# Written by Torsten Seemann
# 18 September 2006

my $gbk = Bio::SeqIO->new(-fh=>\*STDIN, -format=>'genbank');
my $seq = $gbk->next_seq;
my @cds = grep { $_->primary_tag eq 'CDS' } $seq->get_SeqFeatures;

print $seq->description, " - 0..",$seq->length,"\r\n";
print scalar(@cds)," proteins\r\n";
print join("\t", qw(Location Strand Length PID Gene Synonym Code COG 
Product)),"\r\n";

for my $f (@cds) {
   my $gi = '-';
   $gi = $1 if tag($f, 'db_xref') =~ m/\bGI:(\d+)\b/;
   my $cog = '-';
   $cog = $1 if tag($f, 'product') =~ m/^(COG\S+)/;
   my @col = (
     $f->start.'..'.$f->end,
     $f->strand >= 0 ? '+' : '-',
     ($f->length/3)-1,
     $gi,
     tag($f, 'gene'),
     tag($f, 'locus_tag'),
     $cog,
     tag($f, 'product'),
   );
   print join("\t", @col), "\r\n";
}

sub tag {
   my($f, $tag) = @_;
   return '-' unless $f->has_tag($tag);
   return join(' ', $f->get_tag_values($tag)) 
}

ここではgenbank2ptt.plとして保存。

genbankからpttに変換。

#GCF_000007465.2_ASM746v2_genomic.gbffから変換
perl genbank2ptt.pl <GCF_000007465.2_ASM746v2_genomic.gbff > GCF_000007465.2_ASM746v2_genomic.ptt

たくさんあるならシェルを使いループで回す。

genebak => ptt変換にはこちらのコードも利用できる（こちらもperlの標準ライブラリ以外にSeqIOを使用）。

git clone https://github.com/sgivan/gb2ptt.git
perl gb2ptt/bin/gb2ptt.pl -h

$ perl gb2ptt.pl -h

--debug

--verbose

--help

--infile

--rast (use with GenBank files downloaded from RAST)

genebakからpttに変換。

perl gb2ptt.pl --infile input.gbff

input.gbff.pttが出力される。

２、PGAPの場合 （リンク）

fullのgenbankファイル（.gb）か、ゲノム全長のFASTAファイル（.fna）とテーブルファイル（.ptt）、プロテインファイル（.faa）を３つセットでアップロードする。後者はgzip圧縮されていても良い。他の形式にも対応する。詳しくはマニュアル参照。

PGAwebの使い方

http://pgaweb.vlcc.cn にアクセスする。 PGAPかPGAP-Xを選択する。

PGAPはドラフトゲノムにも完全長ゲノムにも対応するが、 PGAP-Xは完全長ゲノムでみ正しく動作する。 PGAPよりPGAP-Xの方がゲノム比較と視覚化機能が強化されているが、オルソロガスクラスター探索やSNPsツリーなど、PGAPにしかない機能もある（わかりやすく言えば、分析結果の図が欲しいならPGAP-X、分析結果の表が欲しいならPGAP）。

ここではPGAP-Xを選択した。

f:id:kazumaxneo:20190715171708j:plain

Browseボタンを押してファイルをアップロードする。 f:id:kazumaxneo:20190715172119j:plain

.fnaファイルと.pttファイルを両方選択してアップロードする（.fnaファイルだけアップロードすれば.同じディレクトリにあるpttを自動認識する訳ではない）。

f:id:kazumaxneo:20190715171804j:plain

拡張子以外のファイル名が同じなら同じゲノム由来と認識するので、同時にアップロードせず、fnaファイルと.pttファイルを順次アップロードしてもO.K。

ファイル選択後、左のUploadボタンを押してアップロード開始。

f:id:kazumaxneo:20190715172119j:plain

アップロードが終わると右側にアップロードされたファイルが並ぶ。

f:id:kazumaxneo:20190715171806j:plain

fnaとptt両方問題ないゲノムは背景が緑色になる。３ゲノム以上になると、次に進めるというメッセージがでる。

解析内容とパラメータを決定したらRUNする。

f:id:kazumaxneo:20190715172443j:plain

データ数に応じ、解析にはしばらく時間がかかる。

f:id:kazumaxneo:20190715172313j:plain

１、Genome Alignment
ゲノムアライメントの結果に基づいて、ゲノム構造が可視化される。相同なDNA領域は同じ色でマークされる。 f:id:kazumaxneo:20190715221957j:plain

２、Orthologs analysis
オルソログ解析結果に基づいて、ゲノム上の遺伝子分布が視覚化される。同じオルソログ遺伝子は同じ色でマークされる。

f:id:kazumaxneo:20190715221959j:plain

３、Genetic Variation Analysis
全ゲノムアラインメント結果に基づいて各ゲノムの全変異部位が検出され視覚化される。置換頻度がフィルタ条件以上である１つの領域または領域内のｍ個（ｍは変異数を表す）の置換部位が、高置換領域として識別される。ペアワイズゲノム間のすべての変異部位が検出され出力テキストファイルに報告されるが、選択された系統の高置換領域のみが表示される。

f:id:kazumaxneo:20190715222047j:plain

４、Pan-genome Analysis

全ゲノム解析モジュールでは、全ゲノムサイズとコア遺伝子サイズの曲線が同じグラフに表示される。

f:id:kazumaxneo:20190715222053j:plain

引用

PGAP-X: extension on pan-genome analysis pipeline
Zhao Y, Sun C, Zhao D, Zhang Y, You Y, Jia X, Yang J, Wang L, Wang J, Fu H, Kang Y, Chen F, Yu J, Wu J, Xiao J

BMC Genomics. 2018 Jan 19;19(Suppl 1):36

PGAweb: A Web Server for Bacterial Pan-Genome Analysis
Xinyu Chen, Yadong Zhang, Zhewen Zhang, Yongbing Zhao, Chen Sun, Ming Yang, Jinyue Wang, Qian Liu, Baohua Zhang, Meili Chen, Jun Yu, Jiayan Wu, Zhong Jin, Jingfa Xiao

Front Microbiol. 2018; 9: 1910.Published online 2018 Aug 21

https://www.biostars.org/p/334073/