macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

遺伝子およびタンパク質の相互作用を自動認識して検索する GePI

 

 遺伝子とタンパク質の相互作用に関する知識は、生体分子研究にとって不可欠である。このような知識の大部分は文章で公開されており、構造化された方法でアクセスすることはできない。この状況を改善するために、自動的に抽出された相互作用の事実のリポジトリが長年にわたっていくつか提案されてきた。しかし、既存のソリューションには、恒久的に更新されるデータリソース、簡単なアクセス性、下流の分析に使用できる構造化された結果生成などの主要な機能が欠けている。本著者らは、科学文献から分子間相互作用の事実を完全に自動抽出し、表示するデータベースポータル GePI を提案する。GePIは、バッチクエリ、テキストエビデンスの即時検査、およびフルテキストフィルタを提供する。この目的のために、GePIは2つの遺伝子認識と正規化アプローチ、および分子イベント抽出のための最適化されたランタイムを活用する。得られた自然言語処理パイプラインは、PubMedの一般公開文書とPubMed Centralのオープンアクセス・サブセットに適用され、2022年現在、3300万以上の抄録と420万の全論文が収録されている。科学文献の急速な増加に対応するため、ファクトデータベースは週に数回自動的に更新される。要約すると、本ウェブアプリケーションGePIは、遺伝子とタンパク質の相互作用情報が発表されると同時に、ユニークなクエリ可能性を持って、自由で使いやすい調査を初めて可能にした。GePI ウェブインタフェースは、http://gepi.coling.uni-jena.de で利用できる。

 

HPより

このアプリケーションは、PubMedPubMed Centralのオープンアクセスサブセットから生物医学文献をスキャンし、文書テキストから遺伝子や遺伝子産物が関与する分子間相互作用を検索します。相互作用は厳密には二項関係のペアで構成されています。結果はいくつかの方法で視覚化され、Excel 形式でダウンロードできます。

 

webサービス

http://gepi.coling.uni-jena.de/にアクセスする。

 

2つの遺伝子またはタンパク質のリスト(以降、AリストおよびBリストと呼ぶ)を指定する。Bのほうは任意。NCBI Gene ID、NCBI Gene symbols、FamPlex identifiersのいずれかに対応している。

結果から除外する単語など指定できる(特定の条件(例えば、高齢者」や疾患、肥満など)。最後にGoをクリック。

(論文より)A項目のみを指定するとオープンサーチとなる。このモードでは、Aの項目と、その項目が相互作用データベースに持つ他の相互作用パートナーとの間の遺伝子とタンパク質の相互作用を制限なく検索することができる。Bリストに2つ目の遺伝子識別子のリストを入力すると、クローズドサーチが行われる。このモードは最初のモードと同様であるが、検索される相互作用項目は、検索された任意の相互作用記述において、一方の引数がA、他方の引数がBの要素であるものに限定される。また、A,B に同一のリストを入力してクローズドサーチを行うことで、1 組の遺伝子/タンパク質間の相互作用を検索することもできる。NCBIのTaxonomy IDを1つか複数指定すると、入力された生物に関連付けられた遺伝子やタンパク質に検索を限定できる。

出力例

文献から抽出された各遺伝子/タンパク質相互作用が表示される。上のパネルは、出現頻度の指標を示している。

 

(論文より)

  • 円グラフパネルは、現在のクエリで返された任意の相互作用に、特定の遺伝子またはタンパク質がどの程度の頻度で関与しているかを示している。遺伝子やタンパク質のペアに関する関連情報は、サンキー・ダイアグラム(Sankey diagram)を使って表示される。これは、文献上、関連性が見出されている遺伝子やタンパク質のシンボルを、太さの異なるエッジで結んでいる。太さは、2つのシンボル間の相互作用の所見の部分を示している。接続が強いほど、同定された相互作用の頻度が高いことと相関している。中央のサンキーダイアグラムは、検索結果で最も頻度の高い相互作用を示す。右側のサンキーダイアグラムは、共通の相互作用のパートナーを示す。これは、共通の第3のシンボルと相互作用することが頻繁に記述されている遺伝子シンボルに焦点を当て、2次相互作用を表示するものである。これらの結果は新しい相互作用の発見を可能にし、特に、文献に非自明な相互作用が存在する可能性のある閉じた検索要求の場合に有意義である。(論文より)。
  • テーブルパネルでは、現在のリクエストで見つかった遺伝子やタンパク質間の関連付けの完全なリストを提供する。本文中の遺伝子、NCBI Gene ID、マッピングされたシンボル、相互作用のパートナーを見つけたアルゴリズム、相互作用が発生した文についての詳細情報が開示される。これはすべてのグラフの元となる一次結果データである。一次データ表はExcelワークブックとしてダウンロードすることができる。このワークブックには、相互作用に関与する遺伝子またはタンパク質のシンボルの正確な出現番号と、各シンボルが他のシンボルと相互作用しているのが何回見つかったかもリストアップされている。

 

引用

GePI: Retrieval of fully automated recognition and extraction of gene and protein interaction mentions from unstructured literature
Erik Faessler, Udo Hahn, Sascha Schäuble

bioRxiv, Posted July 10, 2022.