包括的なfunctional annotationを行うwebツール FunctionAnnotator

　シーケンス技術の向上により、次世代シーケンス（NGS）がトランスクリプトーム研究にますます頻繁に使用されている。適切なリファレンスゲノムがないため、非モデル生物のトランスクリプトームの分析はモデル生物のトランスクリプトームと非常に異なる。 Trinity、Oases、SOAPdenovoなど、リファレンスゲノムなしでシーケンスリードから転写物をアセンブリするためのいくつかの方法が提案されている。転写物アセンブリに続く次のステップは、これらの転写物の機能にアノテーションを付けることである。たとえば、RASTは、細菌および古細菌のゲノムのアノテーションサービスを提供している。膜貫通タンパク質予測のTMHMM、シグナルペプチド予測のSignalP、リポタンパク質同定のLipoP、細胞内局在特性評価のPSORTなどの他のツールは、functional annotationのため、シーケンス featureを利用する。これらのツールはすでに長い間利用可能である。ただし、これらのツールの多くはユーザーに高いコンピューティングスキルを要求するため、コマンドライン環境に精通していることがしばしば必要である。したがって、ユーザーフレンドリーなアノテーションツールは、これらすべてのトランスクリプトーム研究に有益である。

　2012年に、WebサーバーFastAnnotator（ref.14）を公開した。これは、RNA-Seqのリードからアセンブルされたトランスクリプトコンティグにアノテーションを付けることを目的としている。広く使用されており、1,500以上のプロジェクトにアノテーションを提供している。最近、非モデル生物用に特別に設計されたRNA-Seq分析ツールであるTRUFAが提案された（ref.15）。 TRUFAにはRNA-Seq分析プロセス全体が含まれるが、アノテーションはそれほど重視されない。リファレンスゲノムが欠けているトランスクリプトームの潜在的なfunctional annotationを付けることは非常に重要だと考えている。したがって、FastAnnotatorの後継であるFunctionAnnotatorを提案する。これは、包括的なfunctional annotationを提供し、さらに下流の分析に役立つ可能性のある出力ファイルを生成することに焦点を当てている。 FunctionAnnotatorには、GO term、酵素識別、ドメイン検出、リポタンパク質認識、膜貫通ドメイン検出、細胞内局在性などのアノテーションが含まれている。FunctionAnnotatorは、さまざまな分類レベルでのベストヒットからの種の分布も提供する。これらの結果はすべて、さらに分析するためにテキストファイルとしてダウンロードしたり、シーケンス以外の実験と統合したりできる。

　トランスクリプトームのアノテーションを必要とする別の新興分野は、メタトランスクリプトーム解析（ref.16、17、18、19）である。メタトランスクリプトームのfunctional annotationのは、特定の時間と場所で環境サンプルでどのpathwwayと遺伝子が高度に発現されているかを明らかにすることができる。functional annotationに加えて、16 S rRNA qPCRから得られたコミュニティ構成プロファイルとメタトランスクリプトームデータの間に高い一致があることが実証されている（ ref.21）。したがって、メタトランスクリプトミクスは、環境サンプルのコミュニティ構成を理解する可能性の観点から、メタゲノミクスの代理となる可能性もある。いくつかの研究がこれらのメタトランスクリプトームデータを分析する方法を提案しており（ref.19、22、23）、SAMSAなどの分析パイプラインが提案されている。実行可能なアプローチの1つは、すべての転写産物を使用してNCBI NRデータベースでホモログを検索することである。最も類似したヒットを持つ種を特定し、これらの種の分類情報を取得することにより、ユーザーはメタゲノム解析から得られたものと同様の系統発生プロファイルを持ち、元のコミュニティの種の潜在的な構成についてグローバルなアイデアを得ることができる。したがって、FunctionAnnotatorでのホモロジー検索に基づいて、元のサンプルの種の分布の推定値を生成するために、この戦略を実装した。このデザインにより、FunctionAnnotatorは種の分布、転写産物の機能、およびメタトランスクリプトームデータに隠されているすべてのactivateされたpathwayを明らかにすることができる。

　この研究では、WebツールFunctionAnnotatorを提示し、FunctionAnnotatorがメタトランスクリプトミクスのアノテーションを付けてコミュニティ構成を提供できることを証明する。別の例では、FunctionAnnotatorからの出力がプロテオミクス分析などの他の相対的な実験を支援できることを示した。要約すると、FunctionAnnotatorは、非モデル生物のトランスクリプトームを理解し、アノテーションと予測を生成する使いやすい方法を保証する。これにより、さらなる応用や他の研究分野との統合の多くの可能性が開かれる。ここでは、非モデル生物のトランスクリプトーム解析のためのトラブルのないソリューションを開発した。

使い方

http://fa.cgu.edu.tw/にアクセスする。上のメニューからAnalysisタブに切り替える。

生物のkingdomを選択し、実行するモジュールを選択する。

最後にmulti-fastaを指定してuploadボタンを押す（ファイルサイズ上限150M（おそらく150メガバイト））。

ここではdemoランの結果を紹介する。

f:id:kazumaxneo:20190816214311p:plain

結果はタブで分けてでまとめられる。

1、Basic assembly statistic

f:id:kazumaxneo:20190817193545p:plain

2、HIts to NCBI-nr

NCBIのnrデータベースに対するBLAST検索の結果が示される。 E valueが最も低い上位100のシーケンスのみがwebには表示される。

f:id:kazumaxneo:20190817193902p:plain

全結果を見るにはダウンロードする必要がある。表の上のdownloadボタンからダウンロードする。

3、Taxonomic distribution

contigsがどの生物に由来するか調べた結果が表示される。上には各contigの集計結果の図が表示され、一番下の表には各々のcontigのbest hit生物種を示した表が表示される（100のみ）。

f:id:kazumaxneo:20190817194517p:plain

左上のボタンを押すと表示する階級を変更できる。

f:id:kazumaxneo:20190817194520p:plain

4、Gene ontology annotation

GOアノテーション結果がまとめられる。Blast2GOが使用されている。

f:id:kazumaxneo:20190817194803p:plain

左上のボタンを押すと表示するGO termのレベルを変更できる。

f:id:kazumaxneo:20190817194712p:plain

下の表には最初の100contigのGO アサイン結果が表示される。全結果を見るには表の上のdownloadボタンからダウンロードする。

f:id:kazumaxneo:20190817195105p:plain

5、Enzymes identification

PRIAMデータベース内のすべてのコンティグを検索し、酵素タンパク質を生成する可能性が高いコンティグを見つける。表のEnzyme hitはENZYMEにリンクしている。

f:id:kazumaxneo:20190817195354p:plain

ENZYMEからは、KEGGを始め各プロテインデータベースにリンクしている。

f:id:kazumaxneo:20190817195622p:plain

6、Domain identification

Pfamを検索してコンティグ内のドメインにアノテーションを付けた結果がまとめられる。長さが50％を超えるヒットのみがドメインヒットとして扱われる。webには100エントリのみが表示される。全結果を見るには表の上のdownloadボタンを押す。

f:id:kazumaxneo:20190817195731p:plain

7、Transmembrane protein identification

TMHMM によって膜貫通タンパク質が予測された結果がまとめられる。 FunctionAnnotatorは膜貫通ドメイン１つのみを持つものと、複数の膜貫通ドメインを持つものに分類する。この分析では、66アミノ酸を超える最長のorfを予測したコンティグのみが使用される。

f:id:kazumaxneo:20190817200113p:plain

8、Subcellular localization prediction

真核生物と原核生物それぞれでWoLF PSORTとPSORTbを使って細胞内局在結果がまとめられる。予測結果には、細胞質、細胞外、ミトコンドリア、核、細胞骨格が含まれる。この分析では、66アミノ酸を超える最長のorfを予測したコンティグのみが使用される。

f:id:kazumaxneo:20190817200340p:plain

下の表には最初の100contigの結果が表示される。全結果を見るには表の上のdownloadボタンを押す。

9、Signal peptide identification

コンティグの予測されるタンパク質産物*からシグナルペプチド切断部位を予測する。予測結果と予測スコアが表に示される。この分析では、66アミノ酸を超える最長のorfを予測したコンティグのみが使用される。

f:id:kazumaxneo:20190817200812p:plain

10、Lipoprotein identification

そのほか、デモ #1にはないがLipoPを使ってリポタンパク質の予測も行われる。

11、Download annotation results in text files

右端のダウンロードタブには、すべての結果をダウンロードするリンクが用意される。前結果をまとめてダウンロードするにはAll Resultsのzipファイルを選択する（デモファイルは228MBあるので注意）。

f:id:kazumaxneo:20190817200831p:plain

テスト時はかなり混雑していました。ランには順番がありますので、何度も同じジョブを投げないよう注意して下さい。

引用

FunctionAnnotator, a versatile and efficient web tool for non-model organism annotation

Ting-Wen Chen, Ruei-Chi Gan, Yi-Kai Fang, Kun-Yi Chien, Wei-Chao Liao, Chia-Chun Chen, Timothy H. Wu, Ian Yi-Feng Chang, Chi Yang, Po-Jung Huang, Yuan-Ming Yeh, Cheng-Hsun Chiu, Tzu-Wen Huang & Petrus Tang

Scientific Reportsvolume 7, Article number: 10430 (2017)

FastAnnotator- an efficient transcript annotation web tool

Ting-Wen Chen, Ruei-Chi Richie Gan, Timothy H Wu, Po-Jung Huang, Cheng-Yang Lee, Yi-Ywan M Chen, Che-Chun Chen & Petrus Tang

BMC Genomics volume 13, Article number: S9 (2012)