macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

植物遺伝子のファミリー分類とエンリッチメント解析を行うwebサービス GenFam

 

 ハイスループットシーケンシング(HTS)技術を用いたゲノムスケールの研究では、様々な実験条件で発現が異なる遺伝子のリストが作成されている。これらの遺伝子リストは、下流の機能的遺伝学的解析を導くために、生物学的に関連する遺伝子と関連する機能を絞り込むために、さらにマイニングされる必要がある。そのためには、遺伝子オントロジー(GO)の語彙に基づいた遺伝子の機能アノテーションに頼るエンリッチメント解析ツールを用いて、ユーザーが定義したリストの中で統計的に過剰発現している遺伝子を決定するのが一般的なアプローチである。ここでは、遺伝子ファミリーに基づいて遺伝子のアノテーション、分類、エンリッチメントを可能にする新しい計算アプローチであるGenFamを提案する。遺伝学的には、遺伝子の種類ごとに、その遺伝子ファミリーを分類して解析することが可能である。その結果、既存の機能的エンリッチメントツールと比較して、その堅牢性と網羅性の高さが実証された。植物生物学者が利用しやすいように、GenFamはウェブベースのアプリケーションとして提供されており、ユーザーは遺伝子IDを入力し、表形式とグラフ形式の両方でエンリッチメント結果をエクスポートすることができる。また、様々な統計的エンリッチメント検定や多重検定補正法から選択して解析パラメータをカスタマイズすることができる。また、ウェブベースのアプリケーション、ソースコード、データベースは自由にダウンロードして使用することができる。

 GenFamは、よくアノテーションされたシロイヌナズナ(Berardiniら、2015)およびイネ(Oryza sativa)(Kawahara et al、2013)ゲノム、文献検索、およびPfamタンパク質ファミリーデータベース(El-Gebali et al、2019)に基づいて、遺伝子を384の代表的でユニークな遺伝子ファミリーに分類しており、我々(著者ら)の知る限りでは最大のコレクションである。Pfamの共通保存ドメインを同定し、相同遺伝子配列間のドメイン構成を利用して遺伝子ファミリーを割り付けた。これらの高度に保存されたドメインは、タンパク質の機能を定義し、タンパク質をコードする遺伝子を遺伝子ファミリーに分類する。保存されたシグネチャータンパク質ドメインは、配列ベースの類似性解析ツール[例えば、BLAST(Altschul et al、1997)]では困難な発散または遠縁なホモログを検出する能力を有する。したがって、ドメインベースの検索手法は、BLASTベースの相同性検索よりも、遺伝子ファミリーに属する遺伝子をより多く同定することになる。

 GenFamの実装にあたっては、Phytozome(v12)で公開されている植物ゲノムリソースを活用し、背景となるキュレーションされたデータベースを開発した。ユーザー定義の入力リスト内のすべての遺伝子IDをこのリファレンスデータベースにマッピングして遺伝子をファミリーに割り当て、その後、バックグラウンドデータベースと比較することで、入力リスト内の過剰発現遺伝子ファミリーを計算する。また、このデータベースを作成するために、60種類の植物ゲノムのタンパク質配列を用いて、保存されているタンパク質ドメインを同定し、既知遺伝子、未分類遺伝子、新規遺伝子にファミリーを割り当てた。それぞれのタンパク質ドメインは、タンパク質ファミリー隠れマルコフモデル(HMM)プロファイル(Pfamリリース32.0)を用いて、HMMER(v3.1b2)によって予測された(El-Gebali et al、2019)。シグネチャーが保存されたタンパク質ドメインの存在に基づいて遺伝子を分類し、遺伝子ファミリーに割り当てるためのルールを確立した(論文表S1)。このアプローチにより、アノテーションが欠落しているオーファンな遺伝子、アノテーションが正しくない遺伝子、およびそれぞれのゲノムデータベースの間に存在する新規遺伝子を含めて、分類を最大化することができた。また、バックグラウンドデータベースは、ファミリー間での遺伝子メンバーの重複や重複を除去するためにキュレーションを行った。植物ゲノムから384の代表的な遺伝子ファミリーとそれに対応する遺伝子(平均で約41%)をデータベースに統合することができた(論文表S2)。これは、他の既存のデータベースと比較すると、60種の植物にまたがる遺伝子ファミリーの包括的なコレクションである。例えば、最近公開されたポプラの遺伝子ファミリーデータベース(GFDP)では、6,551のポプラ遺伝子をシロイヌナズナゲノム由来の145の遺伝子ファミリーに分類している(Wang et al. PlantTFDB(v4.0)。PlnTFDB(v3.0)では、58および84の転写因子遺伝子ファミリーに分類した(Jin et al、2017; Perez-Rodriguez et al、2010)。同様に、別のデータベースと解析ツールキットであるPlantGSEAは、イネ(118遺伝子ファミリー)やトウモロコシ(81遺伝子ファミリー)のような、主によくアノテーションされたゲノムから遺伝子ファミリーを輸入している13種の植物種の遺伝子ファミリー解析をサポートしている。

 すべての遺伝子ファミリーデータは、PostgreSQLデータベースを用いてフォーマット化し、様々な統計的エンリッチメント手法を用いて分類とエンリッチメント解析を行った。タンパク質ドメインの完全なアノテーションと遺伝子ファミリーの分類を含むGenFamデータベースは、GenFamのウェブサイト(http://mandadilab.webfactional.com/home/dload/)からダウンロードできる。各遺伝子ファミリーに割り当てられた遺伝子数とバックグラウンド遺伝子の総数の詳細な統計は論文表S2に示されている。

 GenFamのWebサーバは、Python3 (https://www.python.org/)、Django 1.11.7 (https://www.djangoproject.com/)、PostgreSQL (https://www.postgresql.org/)のデータベースを使用して実装している。データフォーマットや統計解析のコードはすべてPythonスクリプト言語を使用して実装した。Python は、統計解析、グラフィックス、Web アプリとの統合のためのパッケージがよく開発されている本格的なプログラミング言語である。そのため、GenFamの開発にはRなどの他の言語よりもPythonを選択した。高レベルのPythonウェブフレームワークDjangoを用いて構築した。Python ウェブフレームワークは WebFaction (https://www.webfaction.com/) を使用してホストされた。ウェブベースのテンプレートは、Bootstrap、HTML、CSSを用いて設計した。GenFamは、Internet ExplorerMicrosoft EdgeGoogle ChromeMozillaSafariを含むすべての主要なブラウザと互換性がある。また、分析されたデータは、matplotlib(Droettboom et al、2016)Pythonプロットライブラリを用いて可視化された。

 

Documentation

http://mandadilab.webfactional.com/home/doc/

Github

 

 

 

webサービス

http://mandadilab.webfactional.com/home/にアクセスする。

f:id:kazumaxneo:20200408193407p:plain

 

GeneIDをペーストする。Phytozome ID(Phytozome locus、Phytozome transcript、Phytozome pacID)に対応している。

f:id:kazumaxneo:20200408201203p:plain

Gossypium raimondiiのexample データを貼り付けた。

 

植物種を選択する。

f:id:kazumaxneo:20200408193914p:plain

現在60種類の植物ゲノムをサポートしている。

 

IDタイプ、有意差検定を選択する。Fisher exact test、Hypergeometric distribution、Binomial distribution(二項分布)、Chi-squared distributionの4つの検定をサポートしている。1000 ID未満の小規模なデータセットではFisher exact test,かchi-square test, hypergeometric distributionが推奨され、大規模なデータセットには二項分布を使用することが推奨されている。

f:id:kazumaxneo:20200408201311p:plain

多重比較検定はBonferroni、Bonferroni-Holm、Benjamini-Hochberg検定をサポートしている(参考HP)。

 

Runをクリックして実行する。

 

出力

f:id:kazumaxneo:20200408193314p:plain

Enriched gene familes

P値<0.05でエンリッチされた遺伝子ファミリー

f:id:kazumaxneo:20200408203508p:plain

 

All gene families

ユーザーデータから分類された全ての遺伝子ファミリーの結果

f:id:kazumaxneo:20200408203555p:plain

 

Get Figures

f:id:kazumaxneo:20200408193317p:plain

 

引用.
GenFam: A web application and database for gene family-based classification and functional enrichment analysis

Bedre R, Mandadi K

Plant Direct. 2019 Dec 4;3(12):e00191

 

関連


 

参考

Bonferroni法、Holm法、False Discovery Rate | 大阪大学腎臓内科