生物医学文献の広大な領域を探索し、検索を実行したり、それらをバイオインフォマティクス解析と組み合わせたりする過程は、科学文献の指数関数的な増大と、PubMedおよび関連リポジトリを対象とした多数のマイニングツールの存在を考慮すると、困難である。本研究では生物医学文献マイニングのためのツールである BioTextQuest v2.0を提示する。BioTextQuest v2.0は、選択された生物医学用語の集合に基づく文書クラスタリングを行うオープンソースのオンラインウェブポータルであり、PubMed のAbstractから得られる情報を効率的に管理することを可能にする。確立された機械学習アルゴリズムを採用することにより、このツールは文書クラスタリングを支援し、同時にユーザーが関心のある用語を選択して解析をカスタマイズできるようにしている。BioTextQuest v2.0は、生物医学研究論文から価値ある知見を抽出するプロセスを効率化し、遺伝子・タンパク質、疾患、化学物質、Gene Ontology(GO)、機能などの主要な語彙を固有表現認識(named entity recognition)を通じて同定し、それらを生物学研究に応用する過程を結びつけるエージェントとして機能する。研究者は論文を手作業で精査する代わりに、PubMed形式のクエリを入力することで、抽出された情報を表形式およびワードクラウドという二つのユーザーフレンドリーな形式で受け取ることができ、主要な知見の理解を容易にする。BioTextQuest の最新の更新では、EXTRACT固有表現認識タグgerを活用し、テキスト中の多様な生物学的実体を正確に特定する能力を強化している。BioTextQuest v2.0は研究支援アシスタントとして機能し、生物医学文献から関連情報を特定し提示するために必要な研究者の時間と労力を大幅に削減する。
https://bioinformatics.med.uoc.gr/shinyapps/app/biotextquest にアクセスする。
STARTをクリックする。
検索クエリを入力する。PubMedで検索するようにキーワード検索できる。

適切な結果を得るには、クエリがPubMedで120件以上の論文を返す必要がある。また、検索には元のデータベースインターフェースで許容される表記は全て使用できる(例えばp53 AND (leaver OR pancr*) NOT cancer (Medline))。

(helpより)AbstractはPubMedから毎週更新されローカルデータベースに保管さる。したがって、bioTextQuestサーバーとPubMedウェブサイトで実行した場合、一部の検索では同じ数の記事が返されない可能性がある。
Advanced optionでは、抽出エンティティの選択や:距離法、クラスタリングアルゴリズムなどの選択ができる。抽出エンティティのオプションでは、分析に含める抽出エンティティを選択する。例えば、PubMedが返す論文からの遺伝子/タンパク質のみを含めるように選択できる(空白だとすべてのエンティティが対象)。

検索を実行する。

ヒット文献数を減らして何度か実行したが、検索途中に停止した。
引用
BioTextQuest v2.0: An evolved tool for biomedical literature mining and concept discovery
Theodosios Theodosiou, Konstantinos Vrettos, Ismini Baltsavia, Fotis Baltoumas, Nikolas Papanikolaou, Andreas Ν Antonakis, Dimitrios Mossialos, Christos A Ouzounis, Vasilis J Promponas, Makrina Karaglani, Ekaterini Chatzaki, Sven Brandau, Georgios A Pavlopoulos, Evangelos Andreakos, Ioannis Iliopoulos
Comput Struct Biotechnol J. 2024 Aug 21:23:3247-3253.
