macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Functional annotationを行うwebサーバー PANNZER2

 

 正確なfunctional annotationを持つタンパク質は、生物学的研究に不可欠である。残念ながら、タンパク質配列の大部分は機能的に特徴付けられていない。つまり、実験的に検証されたアノテーションはない。ハイスループットシーケンスの進歩により、シーケンスデータの継続的な成長が保証されるが、これらのシーケンスに実験的にアノテーションを付けるスケーラブルな手段はない。したがって、計算によるアノテーションが必要な代替手段として登場した。実験的証拠を計算的推論に置き換える。タンパク質機能予測では、データ集約型の計算手法を使用して、遺伝子オントロジー(GO) termをタンパク質に割り当て、molecular functions(MF)、biological processes(BP)およびsubcellular localizations (CC)を指定する(ref.1)。 GO annnotationに加えて、一部のメソッドは、データベースへの新しいシーケンスの送信に必要なフリーのtext descriptions(DE)を予測する。

 Functional annotationには、多くのデータソースを統合し、GOannotationを、例えば配列類似性、遺伝子発現または生物医学文献と相関させて予測を行う。包括的なパイプラインを管理するには、データベースを最新の状態に保ち、増大するディスク容量とメモリ要件が満たされていることを確認する必要がある。これは、大多数のユーザーがアノテーションにパブリックWebサーバーを使用することを示唆している。残念ながら、パブリックアノテーションサーバーは低速で、更新頻度が低く、一度に送信できるクエリの数が過度に制限される傾向がある。この時間のかかるプロセスが完了すると、結果はクエリのかなりの部分の予測を欠く可能性があり、不確実性の見積もりを提供せず、DE予測を出力するアノテーションサーバーはほとんどない(例については論文表11を参照)。

 PANNZER2は、functional annotation用の高速で公開されたWebサーバーを提供することにより、これらの問題を解決する。 PANNZERは、以前はWebサーバーとして利用できず、速度もBLASTの使用により低速であった。しかしながら、PANNZER2は、BLASTよりも数千倍高速のタンパク質相同性検索ツールであるSANSparallel(ref.2)を使用して構築されている。これにより、PANNZER2はバッチモードで何万ものクエリを分析できる。 PANNZERと同様に、PANNZER2は、Webアプリケーションを介してダウンロードまたは探索できるGOおよびDE予測の両方を出力する。 Webアプリケーションは、予測を色分けされた確率とともに表示する。各クエリシーケンスの相同性検索結果へのリンクを提供し、ユーザーが予測の導出方法を確認できるようにする。 PANNZER2が使用するデータベースは毎月のスケジュールで更新され、予測が新しいデータから確実に利益を得られるようにする。最後に、ユーザーは複数の代替スコアリング関数から選択して、さまざまな予測子間でどの予測が堅牢であるかを確認できる。

 PANNZER2は、シーケンスの類似性と濃縮統計に基づいたweighted k-nearest neighbour classifierである。 PANNZER2は、3つの個別のサーバーを使用して実装されている。インターフェースを含むフロントエンドWebサーバー、高速ホモロジー検索用のSANSparallelサーバー、関連するメタデータ(GO構造、GOアノテーションアノテーションのバックグラウンド頻度など)を管理するためのDictServerである。 PANNZER2は、次のアノテーションパイプラインを実装する。

Homology search
各クエリシーケンスについて、SANSparallelを使用して、UniProtデータベースで相同な配列を検索する(ref.3)。相同性検索結果を配列近傍と呼ぶ。デフォルトでは、PANNZER2は最大100のデータベースヒットを使用する。配列の類似性に基づいてアノテーションを転送しているため、配列の一致は、配列の近傍に含めるためのいくつかの基準を満たす必要がある。検索結果には、少なくとも40%の配列同一性と、クエリとターゲット配列の両方の60%のアライメントカバレッジが必要である。この手順をシーケンスフィルタリングと呼ぶ。

シーケンス近傍には、GOアノテーションに関連付けられたシーケンスのサブセットが含まれ、すべての結果には、可変品質のフリーテキスト記述が含まれる。 DictServerを呼び出し、検索結果ごとにアノテーションと説明の両方が収集される。

Gene ontology annotation
PANNZER2によって実装されるすべてのGO予測子は、クエリシーケンスのシーケンス近傍からのエンリッチメント統計に基づいている。これらをスコアリング関数と呼ぶ。すべてのスコアリング関数は、入力として同じフィルタリングされたシーケンス近傍を使用するが、スコアの計算方法が異なる。 PANNZER2には、ARGOT(ref.4 link)、BLAST2GO(ref.5)、PANNZER(ref.6)からのスコアリング機能の実装、および超幾何学的な強化と最も有益なヒットが含まれている。デフォルトでは、PANNZER2は全体的に最適に機能することがわかっているARGOTスコアリング機能を使用する。補助的な方法でARGOTスコアリング関数の選択とシーケンスフィルタリングパラメーターの両方を検証する実験を行った。PANNZER2で利用可能なすべてのスコアリング関数について詳しく説明する。

DE prediction
PANNZER2は、PANNZERのDE予測方法を再実装している。 簡単に言えば、シーケンス近傍からの説明はクラスター化され、いくつかの統計の加重平均を使用して、それらの説明で発生するoverrepresentedされたワードを識別する(ref.6)。

(以下略)

 

 

manual

http://ekhidna2.biocenter.helsinki.fi/sanspanz/

 

webサーバの使い方

1、submit

http://ekhidna2.biocenter.helsinki.fi/sanspanz/にアクセスする。

f:id:kazumaxneo:20190825133652p:plain

 

アミノ酸fastaファイルをアップロードする(最大100,000シーケンス)。

f:id:kazumaxneo:20190825180834p:plain

 

STEP2のToggle advanced parametersをクリックすると、詳細なパラメータを指定できる。

f:id:kazumaxneo:20190825181710p:plain

 

ジョブタイトル、クエリの生物の学名、結果のメールアドレス等を指定してSubmitする。STEP3のInteractive出力は10配列までに制限されているので、配列数が多いならBatch queueを選び、メールアドレスを記載。

f:id:kazumaxneo:20190825180931p:plain

 

 

2、出力
InteractiveからBatch queueに変更していれば、ジョブ終了後、記載したメールアドレス先に結果のリンクが載ったメールが届く。アノテーション結果のほか、GO termアサイン結果、DE結果のテーブルもダウンロードできる。

f:id:kazumaxneo:20190825161539p:plain

キューは1000ごとに分割されて出力される。

 

 

インタラクティブなテーブル表示

f:id:kazumaxneo:20190825172042p:plain

 

それぞれのクエリのヒットをクリックすると、SANSparallelサーバ(link)に飛び、UniProt Knowledgebase (UniProtKB) のデータベースのベストヒット100がテーブル表示される。Identifierの列のIDはUniProt Knowledgebase (UniProtKB) と直接リンクしている。

f:id:kazumaxneo:20190825182410p:plain

SANSparallelサーバの機能により、このページ上でMSAなどを実行することもできる。また、コンセンサス配列の視覚化やヒットした配列(multi-fasta)のダウンロードが行える。

f:id:kazumaxneo:20190825183108p:plain

 

様々なゲノムシーケンシングプロジェクトのfunctional annotationに使われているようです。

引用

PANNZER2: a rapid functional annotation web server
Petri Törönen, Alan Medlar, Liisa Holm

Nucleic Acids Res. 2018 Jul 2; 46(Web Server issue): W84–W88.