ユーザー指定の文献リストを使って文献を仕分ける分類器 BioReader

　現在、生物医学科学が直面している「ビッグデータ問題」は、分析能力を超えるゲノム配列、プロテオミクス、トランスクリプトームおよびメタゲノムプロファイルなどの大量のraw biological dataによるものである。生物医学文献でも同様の傾向が観察されている。生物医学文献は、現在2700万以上の文献から構成されており、毎年ほぼ100万の新しいpublicationsが増え続けている。科学文献のニッチのトピック中でさえ、文献数は手に負えないことがありえる：執筆の時点で、腫瘍抑制遺伝子p53だけについて91M以上の文献がPubMedにある（2018年8月25日に検索用語“ p53”） - ドメインの専門家にとってさえ圧倒的な文献量になる。「big literature」問題は、より多くの注目を集め、そしてさらに多くの引用を受ける引用論文の循環的な効果によって増幅される。 2010年に発表された文献の約0.5％のみが30を超える5年 impact factor を持ち、84％は5を下回る5年 impact factor を持ち、そしておよそ15％は決して引用されないだろう（http：// opencitationsからのデータ）。論文図1参照。
　引用メトリクスに関係なく、多くの論文は潜在的に価値のある情報を含み、いくつかの科学プロジェクトはMetaCycを含む非常に有用なデータベースを編集するためのデータと一次文献からの情報の抽出によって組み立てられたデータベースの手動キュレーションに基づいている。 [ref.2]、免疫エピトープデータベース（IEDB）[ref.3]、および腫瘍T細胞抗原データベース[ref.4]。具体的なユースケースには、ペプチドワクチン接種のためのT細胞エピトープ配列[ref.5、6、7]の検索、またはインシリコ癌免疫療法標的選択に有用な分子表面マーカー発現測定[ref.8]が含まれる[ref.9]。典型的なキュレーションプロセスは論文図2に概説されている。最初に、PubMedなどの文献データベースの基本的または高度な検索機能を使用して予備的な文献検索が行われる。これにより、関心のあるデータまたは情報を潜在的に含む文献リストが得られる。手作業による検査では、これらの文献の一部は関連性があると判断され、その内容に対してマイニングされるが、一方、一部の文献は無関係であることが判明する。その後、これらのコーパスを使用して、将来の検索の分類のためのトレーニングセットを作成することによって、今後の検索方法を改良することができる。これは、学芸員が時間を費やす無関係な文献数を最小限に抑えることによって、キュレーションプロセスを大幅にスピードアップすることが証明されている[ref.5、6、7]。訓練データセットは分類の各反復で拡張され、それにより分類アルゴリズムの性能が向上する。
　したがって、分類技術は生物医学文献の全コーパスからの体系的な知識抽出を容易にする。より広いコミュニティがこのワークフローから利益を得ることを可能にするために、著者らはPubMed、Google Scholarなどに固有の単純なキーワード検索機能を上回る文献分類と検索を行う、テキストマイニング、機械学習、バイオインフォマティクスから関連する方法をWebサービスに実装した。より良い、よりきめの細かい分類を達成する際のBioReaderの有用性を説明するために、そのパフォーマンスを最も類似している既存のWebサービスMedlineRanker [ref.10]と比較し、その方法を使用したいくつかのユースケースについて説明する。

instructions

BioReader - Biomedical Research Article Distiller

Bioinformatics Tools

http://www.cbs.dtu.dk/biotools/

BioReaderの仕組み

ステップ１、トレーニングに使う文献のabstract抽出。2つのリスト（例えば、興味のあるコンテンツについてのポジティブとネガティブに対応するPubMed ID）から、NCBIのEntrezプログラミングユーティリティEユーティリティを使用してabstractを抽出する。

ステップ２、テキストの前処理とコーパスの形成。abstractを検索し、次の操作が実行される。小文字変換、単語の削除の停止、句読点の削除、単語のステミング、スペース削除。多くの遺伝子名に数字が含まれているので、数字は削除されない。操作はすべて、Rの「NLP」および「tm」パッケージを使用して実行される。

ステップ3、用語の行列形成と分類器の訓練コーパス形成後、テキストを document term matrices（DTM）でトークン化し、単語数は用語頻度 - 逆文書頻度変換するRのtmパッケージによって補正される。得られた訓練コーパス DTMは、10種類の分類アルゴリズム（使われたアルゴリズムは論文で確認してください。ツールレベルではRTextToolsが中心に使われているようです）のトレーニングとテストに使用される。最良の実行アルゴリズムが決定され、そのアルゴリズムにより分類されるリストは２つのクラスのうちどちらかがアサインされる。

本アルゴリズムを使い文献を集め、データベースも作成されています（Document example3より）。

Immune Epitope Database

使い方

http://www.cbs.dtu.dk/services/BioReader/ にアクセスする。

Pubmed IDを指定する。元のデータセットの数とクオリティが結果に大きく影響して来るため、手動で選抜することが推奨されている。最小でも20のリストを与える必要がある。ただし、精度をあげるため100以上の文献でトレーニングすることが推奨されている。上限は1000となっている。

左端のウィンドウに研究している内容に関連ある文献のPubmed ID、中央のウィンドウに研究している内容に関連ない文献のPubmed ID、右端のウィンドウに分類したい文献のPubmed IDをそれぞれ入力する。ここではExample データをランする。

f:id:kazumaxneo:20190909025926p:plain

3つのウィンドウそれぞれ1つでもオーバーラップがあるとエラーが出るので注意する。

Pubmed IDはPubmed検索時に取得できる。右上のFile => PMID LIst

f:id:kazumaxneo:20190909032351p:plain

Exampleラン結果。ジョブが終わるまで数分かかった。結果はPrecision、RecallとそのF scoreとして計算される。

f:id:kazumaxneo:20190211230109p:plain

分類結果の表も表示される。Class Iが関連あると判断された文献、Class2が関連ないと判断された文献になる。

f:id:kazumaxneo:20190211230049p:plain

表はソートや発表年でフィルタリングできるようになっている。

感想

"long read assembly”でヒットした文献のIDをpositive、"sanger sequencing assembly"でヒットした文献のIDをnegativeとして、"overlap layout consensus”の文献を分類してみた。結果は、ドライのMethodよりも特定の生き物のアセンブルが中心にClass Iに分類された。もう少し頑張ってリストを峻別するとより良い結果を出せると感じました。

引用

BioReader: a text mining tool for performing classification of biomedical literature

Christian Simon, Kristian Davidsen, Christina Hansen, Emily Seymour, Mike Bogetofte Barnkob, Lars Rønn Olsen
BMC Bioinformatics 2019 19 (Suppl 13) :57