遺伝子の機能的アノテーション(GFA)はゲノム解析において重要であり、広範なゲノム研究の基礎となる。 配列を入力とする一般的なGFAツールは2つのカテゴリーに分けられる: (i)リファレンスベースのツールは、ユーザーが新たに配列決定されたゲノムをアノテーションするために、密接に関連するアノテーションされたリファレンス種を選択するものであり、(ii)Gene Ontology (GO)、Kyoto Encyclopedia of Genes and Genomes (KEGG)、Protein family (Pfam)、National Center for Biotechnology Information (NCBI) nrのようなGFA情報の完全なデータベースを用いてアノテーションするツール(相同性ベースのアノテーション)、または1つ以上のデータベースによって学習された機械学習モデル(de novoアノテーション)である。一般に、完全なGFA情報を持つツールはより正確であり、リファレンスベースのツールはより高速である。植物GFAでは、遺伝的に遠い植物がリファレンスとして使用される。なぜなら、既存のリファレンスベースのツールでは近縁のリファレンス種が不足しており、不正確で不完全なアノテーションにつながるからである。ほとんどのツールは1種類のGFA情報でアノテーションを行い、de novoまたは相同性ベースの方法を使用しているため、ユーザーの選択肢が限られている。既存のツールのほとんどはウェブベースのサービスしか提供しておらず、使いやすいが、入力ファイルのサイズが制限され、インターネットやサーバーに関連する要因によって実行時間が不確実である。GFAPは、84科208種の植物リファレンス種のGFA情報を統合した先進的なGFAツールである。GFAPは、さまざまなアノテーションデータベース、de novoおよび相同性ベースのGFA手法を使用し、Windows、MacOS、Linux用のウェブサービスとダウンロード可能なソフトウェアの両方を提供している。様々なタイプのGFA情報を総合的に活用し、最近発表された超高速配列アライナーDiamond(Hernández-Salmerón and Moreno-Hagelsieb 2020)を適用することで、GFAPは高速かつ正確な植物ゲノムGFA解析を行う。
webサーバー
http://43.139.112.84/go-kegg-pfam-indexにアクセスする。
アノテーションしたい配列のCDSかタンパク質配列のFASTA形式ファイルをアップデートするかウィンドウ内に貼り付ける。
exampleを使用。3個の配列からなる。
その他のパラメータ設定
機能的アノテーションは上側の1が近縁種の情報を使ったアノテーションで、下の2がより広範なデータベースによるアノテーションとなっている。
1は高速にランでき、2はより多くの時間がかかる。
ここでは2を選択。選択できるデータベースからplant special database(植物特異的データベース)を選択した。annotateをクリックしてサブミットする。
上側のリファレンスデータベースには、藻類から双子葉植物まで208種の植物リファレンス種のGFA情報が含まれている。各リファレンス種について、GFAPはhmmsearchによる隠れマルコフモデル(HMM)ベースのde novoアノテーションとGO、KEGG、PfamデータベースによるGFA情報を含んでいる。
出力例
GO_database_result.txt
kegg_database_result.txt
GFAP-merge-result.txt
Visualizationタブ
アノテーション結果をアップデートして可視化できる。
bar plot
pathway enrichment
論文より
- リファレンスアノテーションの質はアノテーション精度に影響する可能性があるため、正確で完全なアノテーションを行うためには複数のリファレンス種を用いることを推奨する。GFAPは、完全なデータベースと、既知の全遺伝子および既知の全植物遺伝子のGFA情報で学習したHMMモデルを含む植物特異的データベースをそれぞれ提供している。相同性ベースのアノテーションをサポートするSWISS-PROT (https://www.uniprot.org/help/downloads)と植物特異的nrデータベース(NCBI-nrの植物部分)も含まれている。
- GFAPはまた、ファミリー情報を持つ遺伝子をアノテーションするための遺伝子ファミリーデータベースと、マイクロRNAおよび長鎖ncRNAを同定するためのncRNAデータベースも含んでいる。これらのデータベースは、収集したアノテーション情報を用いてHMMモデルを学習させることにより構築されている。
引用
GFAP: ultrafast and accurate gene functional annotation software for plants
Dong Xu, Yingxue Yang, Desheng Gong, Xiaojian Chen, Kangming Jin, Heling Jiang, Wenjuan Yu, Jihong Li, Jin Zhang, Weihua Pan
Plant Physiology, Volume 193, Issue 3, November 2023, Pages 1745–1748