macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シロイヌナズナの生物学的特徴を調べるFINderデータベース

 

 近年の計算機アプローチや実験ワークフローの進歩により、ゲノムワイドな生物学的・ゲノムデータを比較的容易に、かつ一般的に取得することができるようになった。このハイスループット・データは、数百種類の植物のDNA(配列、メチル化、クロマチンアクセシビリティ、染色体構造など)およびRNA(配列、存在量、構造、修飾など)について、さまざまな生物学的特徴を捉えている。しかし、膨大な量の生物学的データは、そこから生物学的な意味を導き出す上で大きな障害となっている。そのため、異なる生物学的特徴が互いにどのように関連し、それらがゲノム情報とどのように相互作用するかを特定することは、依然として重要な課題となっている。

 最近まで、生物学的特徴の関連を明らかにするためには、データの質に左右される可能性のある複雑な統計的アプローチを用いるのが一般的だった。幸いなことに、機械学習は、多くの生物学的文脈で、与えられた生物学的情報に基づいて予測を行うための一般的な手法として出現している。これは、機械学習アルゴリズムの中には、大量のノイズ、次元、不完全性を示す膨大なデータセットを扱うのに十分な効率を持ち、データの基礎となる確率分布や生成方法について最小限の仮定しか立てないものがあるからである。機械学習の手法は、教師あり学習教師なし学習の2つに大別できる。教師あり学習法は、ラベル付けされた例について学習し、ラベル付けされていない例について予測を行う。一方、教師なし学習法は、ラベルを使用せずにデータセットの構造を発見する。

 機械学習は、特殊な代謝遺伝子の予測、GOタームの遺伝子への計算論的割り当てなど、様々な文脈で遺伝子機能を予測するために使用されてきた。例えば、Mooreらは、約5000の遺伝子のデータセットに約1万の特徴量を用いて、特殊な代謝遺伝子を予測し、87%の真陽性率と71%の真陰性率を達成した。Kulmanovら、Rifaiogluら、Littmannらは、GOターム予測のための唯一のデータソースとして、タンパク質配列を使用した。Cheng らによる最近の研究では、作物における窒素利用に影響を与える遺伝子を予測するために、種内および種を超えた進化的情報に基づく機械学習アプローチを用い、そのアプローチが哺乳類のシステムでも有用であることを示した。

機械学習は、遺伝子制御ネットワークの推定にも用いることができる。例えば、ある研究では、植物の代謝は、発生とストレス条件プロセスを通じて転写的に調整されていることが示された。また、EXPLICIT (Expression Prediction via Log-linear Combination of Transcription Factors) と呼ばれるアプローチでは、転写因子情報から遺伝子の発現パターンを正しく予測することができた。EXPLICITでは、スベリン、フラボノイド、側根、木部、小胞体ストレス応答など、植物の多様な経路で機能する遺伝子の転写因子制御因子を推論することも可能であった。このように、高次元データから遺伝子の機能や制御を正しく予測できるようになった機械学習は、生物学を大きく変える可能性を秘めている。

しかし、正確な予測を行うことは機械学習の重要な目的であるが、どの生物学的特徴がこれらの予測に寄与しているかを理解することで、異なる生物学的特徴がどのように関連しているかが明らかになる。幸いなことに、いくつかの機械学習アプローチは、ある特徴が対象特徴を予測する上でどの程度重要であるかを定量化する特徴重要度スコアを提供するので、解釈可能である。線虫の必須遺伝子を予測するために、遺伝子配列、タンパク質配列、ネットワークトポロジーホモロジー、遺伝子オントロジーに基づく特徴の5つのカテゴリーを用いたところ、トポロジー特徴カテゴリーが必須性予測に最も高い識別力を与えた。シロイヌナズナの二次代謝遺伝子予測に機械学習を用いたところ、タンデム重複、パラログとの共発現、発現量、保存性、遺伝子共発現などの複数の遺伝子特徴が一般代謝遺伝子と比較して二次代謝遺伝子を予測することが示された。

Zaborowskiらは、A. thalianaで報告された制御ペアと遺伝子発現および分子情報を用いて、転写因子とその標的遺伝子の高い発現相関の分子的決定要因を見出すことを目指した。その結果、転写因子ファミリーへの帰属、ストレス応答プロセスへの関与、標的遺伝子の進化年齢の若さといった特定の分子決定要因が、特に転写因子標的遺伝子相関の高さを示唆することがわかった。

上記の例は、植物の分子間ネットワークを説明する情報を特定する機械学習の威力を示している。しかし、上述した研究は、遺伝子機能の特定の側面(本質性、特殊な代謝、遺伝子制御)に焦点を当てており、遺伝子の異なる性質がその機能にとってどのように重要であるかを理解することができないままであった。そこで、本著者らは、複数の生物学的およびゲノム的カテゴリーから11 801の特徴から抽出した31 522のA. thaliana遺伝子の広範なデータセットを構築した。そして、このデータセットに対して機械学習ワークフローを用いて、すべての特徴の予測可能性を検証したところ、ある特徴が他の特徴よりも予測可能であることが確認された。このワークフローで得られた特徴量の重要度を用いて、Feature Importance Network(FINder)を構築し、11801個の特徴のうちどの特徴が機能的に関連していると推定されるかを調査するために使用することができる。また、この解析結果を一般に公開するために、オンラインデータベース finder.plant.tools (http://finder.plant.tools/) を作成した。FINderを用いることで、特徴間の潜在的な新しい生物学的関係を特定することができることを例証した。

 

 

How to use

https://sweekwang.github.io/golabel/#how

Abraidopsis Features

https://sweekwang.github.io/golabel/features/

 

webサービス

https://sweekwang.github.io/golabel/にアクセスする。

GO termやA. thaliana feature 名、Differential gene expression (DGE) feature (prefix is 'dge_')でも検索できる(prefixを付けずに検索する)。A. thalianaのフィーチャー一覧は上のリンクから確認できる。

 

GO termのGO:0006950で検索した。ネットワークは、ノード(特徴量)の局所的な近傍を示す。

赤色のエッジは対象フィーチャーとの正の相関を、青色のエッジは負の相関を示す。灰色のエッジは、対象フィーチャーに関与しないノード間の関連を示す。エッジの太さは、エッジのウエイトに比例する。

 

ノードをクリックすると、選択されたノードの属性が左下に表示される。

 

グラフのlayoutは変更可能。エッジの表示範囲も調整可能。

 

Feature importance top 25

(helpより)特徴量の情報には、ランドフォレストモデルで与えられる特徴カテゴリ、名前、説明、特徴の重要度情報が表示され、その特徴が検索ワードを予測する上でどの程度の強度を持つかを示している。また、特徴ランクスコア(FRS)が表示されるが、これは特徴の重要度の値をランクに変換し、そのランクからスピアマンの相関を計算したものである。したがって、FRSの値の解釈はスピアマンの解釈と同じである。FRSの値は-1(完全な負の相関)から1(完全な正の相関)まであり、0は相関がないことを意味する。

 

引用

Feature Importance Network reveals novel functional relationships between biological features in Arabidopsis thaliana

Jonathan Wei Xiong Ng, Swee Kwang Chua, Marek Mutwil

bioRxiv, Posted May 16, 2022

 

関連