次世代シーケンシング(NGS)プラットフォームは、DNAシーケンシングの大きな進歩をもたらした。これは主に、イールドの向上と精度の向上、およびコストの大幅な削減によるものである[論文より ref.1,2]。 NGS技術のために、オンラインゲノムデータベース(https://gold.jgi.doe.gov/)などの公開データベースにdepositされたcomplete genomesの数が指数関数的に増加している。利用可能なゲノム、特に原核生物のゲノムが多数存在することでpan-genome解析などの比較分析が可能になった[ref.3,4]。
生物の遺伝的レパートリーの比較は、生物工学、生物医学および環境に関する遺伝子発見を助けることができる[ref.5]。このアプローチは、進化的イベントの発生をチャート化し、系統発生的関係を確立することができる[ref.6]。比較ゲノミクスを用いて、特定の種に内在するいくつかのゲノム特性を調べることが可能である[ref.7]。Pan-genomeアプローチにより同じ種または属のいくつかの生物のゲノム間の類似性を比較して、病原性生物の病原性メカニズムを解明することができる[ref.8]。
さらに、比較ゲノミクスは、異なるライフスタイルを有する微生物に対して用い、intracellular pathogensがしばしばreductive evolutionおよびgene lossを受ける遺伝子レパートリーおよびゲノムサイズを相関させるために使用することができる[ref.9]。
真核生物では、比較ゲノミクスを使用して、異なる種類の疾患(心臓血管、視覚、聴覚、内分泌および骨疾患)に関連するヒト遺伝子のホモログをショウジョウバエ(Drosophila melanogaster)などのモデル生物において同定し、遺伝子治療のテストに使うことができる[ref.10,5]。
pan-genomics解析を実行するために利用可能なソフトウェアツールの中で、Panseq(Pan-Genome Sequence Analysis Program)[ref.11]は、ユーザ定義パラメータに基づいてゲノム配列の集合からコア領域およびアクセサリ領域を決定したり、SNP(single-nucleotide polymorphisms)を検出することができる。しかしPanseqはpan-genomicプロファイル解析やfunctional enrichment解析を行うことができない[ref.11,12]。 PGAT(Prokaryotic Genome Analysis Tool)[ref.13]は、多くの微生物ゲノム間の遺伝的な内容を比較するために設計されたウェブデータベースである。しかしPGATは現在、そのデータベース内の種については限られた結果しか提供しておらず、ユーザー提供のゲノムデータ解析もサポートしていない[ref.13,12]。最後に、PGAP(Pan-Genome Analysis Pipeline)(紹介)[ref.12]は、いくつかの機能モデルを統合し、病原性メカニズムを発見し、流行を防除するためのバクテリアの進化の歴史を研究するために使用することができる。しかし、PGAPはPerlスクリプト言語を使用して開発されており、パイプラインをインストール、設定、パラメータ化する必要があり、計算処理の経験がないユーザは使用することが難しくなる。さらに、その出力ファイルは複雑で解釈が難しい[ref.14]。この研究では、分析を簡素化し、結果の解釈に役立つ新しいグラフィックスを組み込むPGAPのためのグラフィカルインターフェイスを提供するWebプラットフォームの開発について説明する。
Implementation
PanWebはプログラミング言語PHP(http://php.net/)とR(https://www.r-project.org/)を使用して実装された。PGAPの出力結果を処理し、グラフを生成してデータ解釈を容易にする。さらに、サイト構造をマークするためのHTML(Hypertext Markup Language)5、サイトのスタイルと外観を定義するCSSバージョン3、JavaScriptプログラミング言語など、他のテクノロジを使用した。
Pan-genome解析
PGAPではアクセサリゲノム、セントラルゲノムおよび種特異的領域を同定し、さらにオーソロガスおよびパラロガス遺伝子を同定することができる。機能遺伝子のクラスター分析は、複数のゲノム間のオルソログおよびパラログの検索における不可欠なステップの1つである。この目的のために、PGAPは2つの方法、すなわちMP(MultiParanoid)とGF(gene family)を使用する[ref.12 pubmed]。MP法は、2つのアルゴリズム、すなわち、InParanoidとMultiParanoid [ref.15]を使用する。InParanoidアルゴリズムは、まず各株ペア間のオーソログ検索を行い、各株のパラログは、BLASTを用いてゲノム中のホモログを検索することによって検討される。MultiParanoidアルゴリズムは、複数の系統の遺伝子クラスター探索を行う[ref.12]。GF法は、タンパク質配列のmixuture中でBLASTALLを使用し、クラスタリングプロセスはMCLアルゴリズムによって実行される[ref.16,17]。BLASTの最小スコア値とe valueは、両方の方法(GFとMP)で40と10^-8である。 Blast検索に費やされる時間を短縮するために、PGAPスクリプトはDiamond [ref.18]を実行するように変更された。これはBlastより高速で、PGAPパイプラインでは主要な低速ステップの1つだった。
パイプライン
PanWebはEMBL形式で各ゲノムのアノテーションファイルを入力として受け取り、WebアプリケーションはNUCおよびPEPファイルを自動的に生成する。NUCおよびPEPファイルにはそれぞれヌクレオチド形式とタンパク質形式のコードDNA配列(CDS)が含まれている。各FUNCファイルも生成される。これらのファイルは、その後PGAP [ref.12]によって処理され流。分析のバイアスを避けるために、すべてのゲノムに対して同じアノテーションツールを使用することによって、ゲノムの予測およびアノテーションを標準化することが重要になる。 PGAPを実行すると、PanWebは結果を処理し、パイプラインによって生成された出力ファイルから得られたグラフを表示する。
Introduction
http://www.computationalbiology.ufpa.br/panweb/instructions.html
使い方
テストデータを解析してみる。
http://www.computationalbiology.ufpa.br/panweb/analysistestfiles.php
E-value、Identity、Coverage、Analysisタイプなどを指定する。最後にメールアドレスを記載したらAnalyseをクリックする。Exampleはすぐ終わるが、普通はジョブ完了のメールが届くまで数分~数十分かかる。
Boxplot
Pie
4ゲノム全てに見つかるオーソロガスな遺伝子が86.6%を占めた。
Barplot
手持ちのデータを 解析するには、genbank、embl形式のファイルをアップロードする(*1)。またはすでに登録されているバクテリアのゲノムデータを比較する。E.coliのK-12系統4株と0-157 H7を1株比較してみる。Analysisのタブに戻り、左下から生物種を選択する。
繰り返すと複数登録できる。
パラメータをセットして分析を開始する。
ユニークなORFの数。アウトグループとして加えたNC_011353が圧倒的に多かった。
シェアされている遺伝子数の表
引用
PanWeb: A web interface for pan-genomic analysis.
Pantoja Y, Pinheiro K, Veras A, Araújo F, Lopes de Sousa A, Guimarães LC, Silva A, Ramos RTJ
PLoS One. 2017 May 24;12(5):e0178154
*1
NCBI Refseqなどからgenbankをダウンロードして使ってもいい。ただしテスト時はエラーを起こした。genbankの自動ダウンロードはこの辺りの質問を参照。
https://www.biostars.org/p/223758/
PGAP