macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

生物医学ナリッジを紐解くためのAI駆動文献リソース PubTator 3.0

 

PubTator 3.0(https://www.ncbi.nlm.nih.gov/research/pubtator3/)は、タンパク質、遺伝子バリアント、疾患、化学物質のような主要な概念の意味と関係性の検索を提供する最先端のAI技術を用いた生物医学文献リソースである。現在、約3600万件のPubMed abstractsとPMCオープンアクセスサブセットからの600万件のフルテキスト論文にわたって、10億件以上の entityとrelationのアノテーションを提供し、毎週更新されている。PubTator 3.0のオンラインインターフェースとAPIは、これらの事前計算されたエンティティ関係と同義語を利用して、高度な検索機能を提供し、大規模な分析を可能にし、多くの複雑な情報ニーズを合理化する。PubTator3.0がPubMedGoogle Scholarよりも多くの論文を検索し、上位20位までの検索結果の精度が高いことを実証する。さらに、ChatGPT (GPT-4)をPubTator APIと統合することで、その応答の事実性と検証可能性が劇的に向上することを示す。要約すると、PubTator 3.0は、研究者が増え続ける生物医学文献の富をナビゲートし、研究を迅速化し、科学的発見のための貴重な洞察を解き放つことを可能にする機能とツールの包括的なセットを提供する。

 

Tutorial

https://www.ncbi.nlm.nih.gov/research/pubtator3/tutorial

 

チュートリアルより

PubTatorは最初に開発された2013年以来、PubTator3への主要なアップグレードを経て進化してきた。PubTator3は以下のような新機能を備えている。

  • AIONER,tmVar3,GNorm2などの新しく開発されたAIツールによるエンティティのアノテーションの改善
  • 関係抽出のための最先端の変換器ベースの手法であるBioRExによって利用可能になった6つのバイオエンティティ間の新しい関係アノテーション
  • クエリーオートコンプリートによる新しいセマンティック検索機能
  • PubMedの3,500万件以上のAbastract全体と、PMC Text Miningサブセットの約600万件のフルテキスト論文への統一されたアクセスの提供
  • 主要なバイオエンティティとその関係のハイライトを特徴とする、より包括的な視覚化
  • 高性能なエンティティ検索エンジンを使用し、同じエンティティの異なるフォームを一意の標準化された名前に正規化し、一致するすべての出版物を返す
  • 疾患、化学物質、遺伝子、バリアントなど、2つのエンティティ間の特定の関係を含む出版物のみを返すように結果をフィルタリングできる

 

webサービス

https://www.ncbi.nlm.nih.gov/research/pubtator3/にアクセスする。

チュートリアルより)PubTator3で使用されているすべてのPubMedアブストラクトとPMCオープンアクセスのフルテキスト論文は、キーワードによって十分にインデックス化されている。Googleで検索するように、"breast cancer "などのキーワードを使って検索したキーワードを含む論文を検索できる。   

 

キーワードで検索する。図の様に検索キーワードをANDで組み合わせることができる。

また、(@DISEASE_COVID_19 AND complications) OR @DISEASE_Post_Acute_COVID_19_Syndromeのように、ORと括弧の併用もできる。

 

Doxorubicin(ドキソルビシン)と途中までタイプすると、

オートコンプリート機能により単語全体が補完され、さらに正規化されたバイオエンティティのリスト(normalized entities)が推定され、フリーテキストのクエリを対応する意味概念("@CHEMICAL_Doxorubicin")に変換する(チュートリアルより)。

 

@CHEMICAL_Doxorubicinに変換された。

 

検索結果例

ヒットした文献の一覧が表示される。

総文献数(上)、出版年別文献数(右上)、ジャーナル別文献数(左)、出版タイプ別文献数(左)など、検索結果の統計情報をユーザーに提供する。

 

デフォルトでは関連性のランキング順でソートされている。上のボタン(Recency)から最新の出版物順にソートできる。

 

ヒットは条件でフィルタリングできる。section、ジャーナル名、出版のタイプなど。

 

右上にはpublication数の年間推移が出ており、2020年から急に増えて、2023年になると減っていることが分かる(注;横軸の出版年はpublication順で並べ替えられている)。


ヒットした文献を1つ見てみる。デフォルトで検索に使用したエンティティがハイライト表示されている。

Abstractやアノテーション付きエンティティ、抽出された関係を含む論文の詳細が表示されている。論文のfull textが利用できる場合、full text全体がこのページに表示されている。

 

ページの左側には、その論文で言及された注釈付きバイオエンティティの要約と抽出された関係のリストが表示されている。

 

任意のエンティティをクリックすると、文献のエンティティ部分がハイライト表示される。

pon1

 

下の方にある RELATIONSのエンティティをクリックすると、文献のエンティティ間ペアをハイライト表示できる。

 

(マニュアルより)右上のShow Bioconceptsは、ユーザーが文献記事中の異なるタイプのエンティティをハイライトするために提供されている。

 

(ハイライトされていなくても)文献記事中の単語をクリックすると、そのエンティティの概要を示すウィンドウが表示される。

SARSをクリックした。

 

ARDSをクリックした。

NCBI MeSH (Medical Subject Headings) にリンクしている。

 

お気に入りの記事は、コレクションに保存したり、検索結果の記事リストとしてダウンロードできる。

 

コレクションに文献記事を登録した場合、Playlistsからリスト毎に参照できる。

 

その他

  • 従来同様、プログラミングを通じて出版物をエクスポートしたり、特定の関連物に関する情報を照会したりするためのAPIが提供されている(PubTator3のAPIは前身のAPIとは異なる)。PubTator3サーバーに過負荷をかけないようにするため、1秒間に3件以下のリクエストしか投稿しないようにとの注意書がある。Link

引用

PubTator 3.0: an AI-powered literature resource for unlocking biomedical knowledge 
Chih-Hsuan Wei,   Alexis Allot,   Po-Ting Lai,   Robert Leaman,   Shubo Tian,   Ling Luo,   Qiao Jin, Zhizheng Wang,   Qingyu Chen,   Zhiyong Lu
Nucleic Acids Research, Published: 04 April 2024

 

PubTator central: automated concept annotation for biomedical full text articles

Chih-Hsuan Wei, Alexis Allot, Robert Leaman, Zhiyong Lu

Nucleic Acids Research, 2019 Jul 2;47(W1):W587-W593

 

PubTator: a web-based text mining tool for assisting biocuration

Chih-Hsuan Wei, Hung-Yu Kao, Zhiyong Lu

Nucleic Acids Research. 2013 Jul;41(Web Server issue):W518-22

 

関連

生命科学実験の検索・提案のためのウェブアプリケーション LEXAS