入力プロテオームから類似したタンパク質のデータベースを自動検索し、プロテオームから近い種を調べる AAI-profiler

　全ゲノムショットガンシーケンスは、分類学的分類の再評価を推進し、シングルセルゲノミクスの出現は生物多様性に関する知識を大きく広げている(1)。これらすべての応用分野において、分類学的分類に関するオリジナルの文献を検索するよりも、配列データを直接比較する方が、分類学的・系統的関係の概要を迅速に把握することができる。残念ながら、配列データベースのメタデータは、古い同義語を使用していたり、完全に誤って分類されていたりすることがある。多くの推論手法は、配列の種の割り当てが正しいと仮定して、配列のツリーと種のツリー（分類学）との整合性をテストするため、正しいメタデータは重要である。このようなアプリケーションには、種分化、遺伝子複製イベント（2）および水平方向の遺伝子移動イベント（3）を識別するためのツリーの再構成、メタゲノミクスにおける分類学的プロファイリングのためのlowest common ancestor（LCA）アプローチ（4）、およびLCA分類群の配列クラスタへの割り当て（5）などがある。

　近年、Pairwise overall genomic relatedness indices（OGRI（6））は、種の発見と同定において人気を博している。OGRIは、16S rRNA遺伝子配列の分解能が限られていることや、Multilocus Sequence Analysis (MLSA)におけるデータの欠落など、遺伝子ベースの計算検定の限界をいくつか克服したものである(7)。ゲノム全体の関連性の指標としては、Karlinゲノムシグネチャー、平均ヌクレオチド同一性（ANI）、平均アミノ酸同一性（AAI）、スーパーツリー、in silico Genome-to-Genome Distance Hybridization（GGDH）などがある（8）。特に、従来の多相性分類からゲノム微生物分類への転換が期待されており、時間のかかる実験室での検査による表現型の特徴付けを避けることができる(8-11)。

　ここでは、クエリプロテオームとUniprotデータベース内の全標的種との間のAIを計算する、ユーザーフレンドリーなウェブサーバーであるAI-profilerを紹介する。既存のツール(12-15)では、2つの種を比較したり、あらかじめ定義された少数の種のセットを比較したり、メタゲノミクスを目的としているのとは対照的に、AAI-profilerは1つの種のプロテオームを入力とし、類似したタンパク質を持つ種のタンパク質データベースを自動的に検索する。AAI-profilerは、AAI距離検索を含む一連のメタゲノムおよびゲノム比較分析を実装しているMiGAのウェブサイト（http://microbial-genomes.org/）に似ている。AAI-profilerはBLASTの代わりにSANSparallel(16)を使用しているため、応答時間が速くなっているが、最も重要な違いは、AAI-profilerで検索されたUniprotデータベースは、MiGAで検索された原核生物のリファレンスゲノムコレクション(NCBI RefSeqで1927件、NCBI Prokで11 566件)に比べて、より多くの種の表現(809 540件のユニークラベル)を持っていることである。

　AAI-profilerは、高速相同性検索ツールであるSANSparallel(16)を利用している。相同性検索では、配列同一性が約50%までの隣接する細菌属や哺乳類のファミリーを識別するのに十分なレベルまで検出する。検索対象の種は、そのプロテオーム（FASTA形式のタンパク質配列）で表される。ヌクレオチド配列ではなくアミノ酸配列を比較することで、AAI-profilerを真核生物に適用することができる。真核生物のゲノムは細菌のゲノムの数百倍から数千倍の長さがあるが、遺伝子密度が低いため、真核生物のプロテオームは細菌の10倍程度の大きさしかない。例えば、大腸菌ゲノムは約5Mb、フェレットゲノムは約2.4Gbで、それぞれ約5000と48000のタンパク質をコードしている（NCBIゲノム、https://www.ncbi.nlm.nih.gov/genome）。SANSparallelを用いて、AAI-profilerは細菌のプロテオームを数分、真核生物のプロテオームを1時間で処理することができる。

　AAI-profilerの結果は2次元散布図で示される。横軸はAAIで、いくつかのソースが種の境界を∼95% AAIとしている(11)。姉妹種と姉妹属は連続して低いAAI値を持っている(論文図1A)。縦軸はカバレッジ、すなわち一致したタンパク質ペアの割合である。ゲノムが完全に配列決定されている種は、サンプル数が少ない種よりも、異なるタンパク質ファミリーが異なる速度で進化するため、よりロバストな AAI 推定値を与える。散布図のデータポイントは、分類学的なグループ分けに応じて色分けされており、予想される単系統のパターンの例外を視覚的に見分けることが容易になる。一つは、分類群は単系統であると予想され、したがって、分類群内の距離は、異なる分類群からの種間の距離よりも小さいはずである。したがって、期待されるパターンは、クエリプロテオームの種と属が、最も高いAAI値で一様な色のクラスタで表示される（図1B。*1 ）。しかし、多くの場合、この「自己」クラスターの中には、ラベル付けされていない種が散在している。クエリプロテオームのカバレッジが高い場合（「一致率」が高い場合）、これらの例外は、誤って分類されたサンプルや誤ってラベル付けされたサンプルに起因している。また、カバレッジが低い場合は、コンタミネーションや遺伝子の水平伝播の可能性があることを示唆している。

　クエリープロテオーム（FASTA形式のタンパク質配列）について、一方向性と双方向性のAAIプロファイルを計算する。SANSparallelを使用して、Uniprotから相同タンパク質を検索する。Species情報は、UniprotヘッダーのOSタグから取得している。分類学的メタデータはDictServerから取得している。各クエリタンパク質について、最も高いビットスコアを持つデータベースの全種との一致を保持する。蛋白質のデータベース化を行い、その蛋白質とデータベース種の標的蛋白質との many-to-oneのマッピングを行う。多重度は、ターゲット種で一致するクエリタンパク質の数を、異なるターゲットタンパク質の数で割ったものと定義している。例えば、あるタンパク質ファミリーがクエリ種の中で多数のパラログにまで拡大している場合、多重度は1よりも大きくなる。この効果は、転移可能なエレメントによってコードされた（疑似）タンパク質が問い合わせプロテオームに含まれている場合に顕著になることがある。双方向性AAIプロファイルはone-to-oneマッピングに基づいており、どちらかの配列に高いスコアの一致がある場合には、クエリタンパク質とデータベースタンパク質の一致を除外している。双方向ヒットの多重度は定義上1である。種ごとの一致数は、幅1%の配列同一性ビンで集計される。配列同一性はSANSparallelによって返されたアラインメントの位置ごとに計算される。AAIは，クエリプロテオームとデータベースの種の間でマッチしたすべてのペアの配列同一性の平均で，各クエリタンパク質は1の重みを持つ。ノーマッチのクエリタンパク質（SANSparallelによって報告）は0の重みを持つ。

tutorial PDF

http://ekhidna2.biocenter.helsinki.fi/AAI/AAI.pdf

example result

http://ekhidna2.biocenter.helsinki.fi/AAI/

AAI-profilerのダウンロード（ダイレクトリンク）

http://ekhidna2.biocenter.helsinki.fi/AAI/#download

webサービス

http://ekhidna2.biocenter.helsinki.fi/AAI/ にアクセスする。

クエリのプロテオーム配列（multi fasta）を入力する。

f:id:kazumaxneo:20200910133105p:plain

　タイトルとメールアドレスを記載してsubmitをクリック。

f:id:kazumaxneo:20200910133216p:plain

クエリのサイズとサーバーの混雑度によってランタイムは変わる。バクテリアのプロテオーム配列（4000配列ほど）を使ってテストした時は数分で計算は終わった。

出力

リンクが表示される。

f:id:kazumaxneo:20200910134419p:plain

example出力

出力図の横軸はクエリとデータベース種間のAAIを示している。平均は、SANSparallelが一致を報告しているクエリ蛋白質について、データベースの種ごとの最良の一致を計算している。縦軸は，その種で一致するクエリタンパク質の割合を示している。プロットは、属（細菌）または目（真核生物）によって色分けされている。真核生物の種はダイヤモンド、バクテリアは丸、古細菌は十字、それ以外のもの（ウイルス、メタゲノム、未分類サンプル）は四角で表示される。

f:id:kazumaxneo:20200910134521p:plain

スコア高かった特定の種が自動で選ばれ、クエリとターゲットの１対１で全タンパク質のAAI比較結果が示される。下では６つの図があるが、もっと多い場合がある。分布が狭く急激なピークが観察されるのは、登録されているタンパク質が少ないためである。完全に配列決定されているプロテオーム同士を比較する場合、ブロードでなだらかな分布が描かれる。

一番上は自分自身との比較（上の図で一番右上の位置）なので、下のグラフになる（データベースにクエリ配列があれば）。

f:id:kazumaxneo:20200910140517p:plain

その下がスコアが高かったいくつかの種との比較になる。

f:id:kazumaxneo:20200910134556p:plain

f:id:kazumaxneo:20200910135104p:plain

データベースへのタンパク質登録数がいずれも少ないのか、分布形状はシャープ。他のexampleの方がわかりやすいかもしれない（リンク）。

Taxonomic profile excluding top species

f:id:kazumaxneo:20200910134650p:plain

Taxonomic profile including top species

f:id:kazumaxneo:20200910134713p:plain

Onesided AAI profiles

excelで開いた。

f:id:kazumaxneo:20200910134901p:plain

Bidirectional AAI profiles

excelで開いた。

f:id:kazumaxneo:20200910135008p:plain

引用

AAI-profiler: fast proteome-wide exploratory analysis reveals taxonomic identity, misclassification and contamination
Alan J Medlar, Petri Törönen, Liisa Holm
Nucleic Acids Research, Volume 46, Issue W1, 2 July 2018, Pages W479–W485