macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ScrapPaper

 

 本論文では、PubMedGoogle Scholarの検索結果から雑誌情報を抽出するPythonスクリプト、ScrapPaperを紹介する。現在、このプログラムを開発した動機は、科学文献のタイトルやリンクなどの情報を取得し、リストとして保存してメタ分析や文献の比較研究などに利用するという問題を解決することにある。ScrapPaperの利点は、プログラミングの経験がなくても簡単に使え、数分以内に結果が得られることである(検索結果の総量による)。ウェブスクレイピングはウェブから情報を抽出する非常に強力な方法であり、ScrapPaperはPubMedGoogle Scholarの両サイトにアクセスするサーバーフレンドリーなアプローチを採用している。

 

レポジトリより

ScrapPaperはPythonスクリプトを用いてPubMedGoogle Scholarからジャーナル情報を抽出するウェブスクラッピング手法です。Python 3と必要なモジュールをインストールし、scrappaper.pyスクリプトを実行する必要があります。詳細な手順については、公開された論文を参照してください。このサイドプロジェクトは2022年3月8日に@rafsanlabによって完成しました。

 

 

インストール

コードはWindows 10でテストされている。

依存

Pythonモジュール

  • requests, csv, re, time, random, pandas, sys, bs4

Github

#依存する標準ではないpythonモジュールの導入
mamba install pandas bs4 -y

#本体
git clone https://github.com/rafsanlab/ScrapPaper.git
cd ScrapPaper/

 

 

実行方法

対話式で実行できるようになっている。

cd ScrapPaper/
python scrappaper.py

Initiating... please wait.

 

Please paste search URL and press Enter:

 

URLを打ち込むように促される。この状態のプロンプトになったら、PubMedまたはGoogle Scholarの検索結果のURLをコピーして貼り付けてEnterを押す。

 

PubmedのURLでは動作するが、ReCaptchaでブロックされる。本来はこのような論文のリストが得られるらしい。

引用

ScrapPaper: A web scrapping method to extract journal information from PubMed and Google Scholar search result using Python
Mohd Rifqi Rafsanjani

bioRxiv, Posted March 09, 2022

 

関連