>100,000の植物論文アブストラクトを網羅するナリッジネットワーク PlantConnectome

遺伝子の機能予測は生物学の理解に不可欠である。しかし、これらの予測は、実験的に特徴付けられた遺伝子の大規模なコレクションに依存しており、そのコンパイルには労力と時間がかかるだけでなく、科学文献の量と多様性を考慮すると不可能に近い。ここでは、Generative Pre-trained Transformer (GPT)のテキストマイニング能力を活用し、100,000以上の植物生物学のアブストラクトを処理することで、この課題に取り組む。その結果、遺伝子、代謝産物、組織など、さまざまな生物学的実体の間に約40万もの機能的関係が発見され、その精度は85%以上という驚くべきものであった。著者らはこれらの知見を使いやすいデータベースPlantConnectomeにまとめ、遺伝子制御ネットワーク、タンパク質間相互作用、発生やストレス応答に関する知見を提供することで、その多様な有用性を実証する。生命科学におけるこの革新的なAIの利用は、研究を大幅に加速し、方向づけ、強力な遺伝子機能予測手法を推進し、急速に増加する科学文献のコーパスに対応するのに役立つと確信している。

遺伝子機能予測は、遺伝子が生物システムの形成とメカニズムにどのように寄与しているかを明らかにし（Rhee and Mutwil, 2014）、生物学的多様性と進化に関する洞察を提供する（Yu et al.）遺伝子予測は、遺伝子とその機能との間に存在する仮説的なつながりを検証するだけでなく、新たな遺伝子と機能の関係の同定を導き、生物学的メカニズムの複雑さを形成する進化過程を解明する（Ruprecht et al.）さらに、予測モデリングは実験的アプローチを大幅に洗練させ、すでに特性化された遺伝子に対する不必要なテストを排除し、新規の洞察をもたらす可能性が最も高いものに努力を向けることができる（Persson et al.）したがって、STRING (Szklarczyk et al., 2015)、GeneMANIA (Franz et al., 2018)、CoNeKT (Proost and Mutwil, 2018)、ATTED-II (Aoki et al., 2016)、その他 (Lim et al., 2022)など、遺伝子機能サービスを提供する多数のツールやデータベースが開発されている。
遺伝子機能の予測には2つの要素が必要である。i) 遺伝子の特性データ（コード配列、発現パターン、タンパク質構造など）と、ii), ゴールドスタンダードデータ（すなわち、実験的に機能が検証された遺伝子）である（Rhee and Mutwil, 2014; Radivojac et al.）前者はまず、未特性遺伝子を配列や発現が類似した特性化遺伝子に接続するために使用される。「guilt-by-association」の原則に基づき、未特性遺伝子はその後、接続された特性化遺伝子（すなわち、ゴールドスタンダードデータ）の機能に従ってラベル付けされる（Rhee and Mutwil, 2014）。
それにもかかわらず、遺伝子機能予測は、生物学的データの複雑さと膨大さのために非常に困難なままであり、植物ゲノムの理解を停滞させ（Rhee and Mutwil, 2014）、その結果、農業、医学、産業において悪化し続ける懸念に対処する能力を低下させている（National Research Council (US) Committee on Examination of Plant Science Research Programs in the United States, 1992）。具体的には、ゴールドスタンダードを確立するためには、科学論文から遺伝子機能情報を手作業で抽出する必要があり（Oughtred et al. さらに、このようなリポジトリは通常、特定のデータタイプ（例えば、PPIやGRN）に限定されており、植物生物学の理解を深めるために不可欠な、様々な種類のデータの統合を妨げている。
そこで著者らは、最近の人工知能の発展を利用し、高性能言語モデルであるGenerative Pre-trained Transformer (GPT)の高度なテキストマイニング能力を活用して、植物生物学の主要ジャーナルに掲載された10万件以上の研究抄録を処理し、この理解の停滞を復活させた。本アプローチは、遺伝子、代謝物、組織、器官、その他の生物学的構成要素からなる10万以上のエンティティ間の30万以上の機能的関係を掘り起こした。これらの関係を手作業で検査した結果、その精度の高さだけでなく、非常に補完的な洞察が明らかになり、現在の遺伝子制御ネットワークのカバレッジに比べ、機能的な情報量が倍増していることさえわかった。PlantConnectomeは、遺伝子機能、器官発生、遺伝子制御ネットワーク、タンパク質間相互作用などを明らかにする新しいビジュアルデータベースである。

The final version of PlantConnectome (https://t.co/SPSKYCp4Gz) is here! 🌿🔬
We extracted insights from 100,000 paper abstracts with GPT to uncover relationships between genes, molecules, compartments, stresses, organs, and other entities in plants. #PlantScience #GPT #AI 1/n!
— Marek Mutwil 🇺🇦 (@LabMutwil) April 24, 2023

GPT is, of course, not 100% accurate and might miss or misunderstand the abstract. To check the accuracy of the inference, head to the table below and click on the PubMed ID to see if GPT got it right. 🔍 #PlantConnectome #AI #PlantScience pic.twitter.com/M83RKy2VJT
— Marek Mutwil 🇺🇦 (@LabMutwil) April 24, 2023

Features

https://connectome.plant.tools/features

webサービス

https://connectome.plant.tools/にアクセスする。

５つの検索方法がある。"Word"では、検索対象のクエリに含まれる全てのエンティティを検索する。例えば"CESA" を検索すると、CESA、CESA genes、Normal CESA complexes全てが検索される。ただし、CESA3、ATCESAなどは対象にならない。”Exact”は完全一致、”Alias”は検索クエリに関連するすべての遺伝子エイリアス（シノニム）を検索する。Substringは検索クエリを部分文字列として含む全てのエンティティを検索する。"Non-alphanumeric"は、検索クエリの後に英数字以外の文字が続くエンティティをすべて検索する（具体例は画面右のinstructions参照）。

他にもPubmed ID、著者名で検索できる。

CENAと入力してWordボタンをクリックした（クリックするとサーチ開始）。

出力例

クエリに関連する遺伝子や他のエンティティ（ホルモン、メディアなど）がネットワークで視覚化される。

CENAは多くの現象に関与していることが分かる。

レイアウトからAFFECTSだけを選択した。

"AFFECTS"のエッジのみ対象としたインタラクティブなネットワーク（CENAが影響、あるいは制御している可能性があるノード）が表示される。ここではクエリとしてCENA、CENA GENES、CENA COMPLEXESがヒットしたため、独立した３つグラフが表示されている。

CENA遺伝子はTBRやTBL3などによって発現が調整されており、CENA遺伝子自身はセルロースの分解を調整してセルロース含量の調整に関わっている可能性が示唆される。グラフはSVG形式でダウンロードできる。

グラフパネルの下にはテキストサマリーが表示される。

青くなっているPubMed IDをクリックすると引用元の文献のアブストラクトが表示される。GPTは間違うこともあるので、ツイートされているように元の文献でクエリのワードがどのような文脈で使われているか確認することが推奨されている。

さらに下には表形式のサマリーが表示される。

Table summary of the network:

Entitiesタブではデータベース内のEntitiesカタログが掲載されている。

Tool for Literature;Driven Researchタブでは、遺伝子、分子、コンパートメント、ストレス、細胞タイプ、器官、その他の関連用語などをクエリに植物に関することを質問することが出来る。

（テストした時は動作せず）

引用

PlantConnectome: knowledge networks encompassing >100,000 plant article abstracts
Kevin Fo, Yu Song Chuah, Herman Fyh, Emilia Emmanuelle Davey, Melissa Fullwood, Guillaume Thibault, Marek Mutwil

bioRxiv, Posted July 12, 2023