本論文では、PubMedやGoogle Scholarの検索結果から雑誌情報を抽出するPythonスクリプト、ScrapPaperを紹介する。現在、このプログラムを開発した動機は、科学文献のタイトルやリンクなどの情報を取得し、リストとして保存してメタ分析や文献の比較研究などに利用するという問題を解決することにある。ScrapPaperの利点は、プログラミングの経験がなくても簡単に使え、数分以内に結果が得られることである(検索結果の総量による)。ウェブスクレイピングはウェブから情報を抽出する非常に強力な方法であり、ScrapPaperはPubMedとGoogle Scholarの両サイトにアクセスするサーバーフレンドリーなアプローチを採用している。
レポジトリより
ScrapPaperはPythonスクリプトを用いてPubMedやGoogle Scholarからジャーナル情報を抽出するウェブスクラッピング手法です。Python 3と必要なモジュールをインストールし、scrappaper.pyスクリプトを実行する必要があります。詳細な手順については、公開された論文を参照してください。このサイドプロジェクトは2022年3月8日に@rafsanlabによって完成しました。
Download and run the code from #github here: https://t.co/Iite8YTWjF. For methods and step by step instructions refer the paper.
— M. Rifqi Rafsanjani (@rafsanlab) March 10, 2022
インストール
コードはWindows 10でテストされている。
依存
- Python (version 3 or above)
Pythonモジュール
- requests, csv, re, time, random, pandas, sys, bs4
#依存する標準ではないpythonモジュールの導入
mamba install pandas bs4 -y
#本体
git clone https://github.com/rafsanlab/ScrapPaper.git
cd ScrapPaper/
実行方法
対話式で実行できるようになっている。
cd ScrapPaper/
python scrappaper.py
Initiating... please wait.
Please paste search URL and press Enter:
URLを打ち込むように促される。この状態のプロンプトになったら、PubMedまたはGoogle Scholarの検索結果のURLをコピーして貼り付けてEnterを押す。
PubmedのURLでは動作するが、ReCaptchaでブロックされる。本来はこのような論文のリストが得られるらしい。
引用
ScrapPaper: A web scrapping method to extract journal information from PubMed and Google Scholar search result using Python
Mohd Rifqi Rafsanjani
bioRxiv, Posted March 09, 2022
関連