2022/02/20 追記
メタゲノミクスは、環境中に存在するすべてのゲノムからDNAをアッセイするための強力なツールである。近年のバイオインフォマティクスの進歩により、ほぼ完全なメタゲノム・アセンブル・ゲノム(MAG)の迅速なアセンブルが可能になっており、同定や機能的特性評価を可能にするために、数千のゲノムを同時にアノテーションし、特性評価できる再現性のあるパイプラインが必要とされている。MAGpyは、複数のゲノムアセンブリをFASTA形式で受け取り、複数の公開データベースと比較し、品質をチェックし、分類法を提案し、系統樹を描く、スケーラブルで再現性の高いパイプラインである。MAGpyはhttps://github.com/WatsonLab/MAGpyで公開されている。
install
MAGpy/install.md at master · WatsonLab/MAGpy · GitHub
MAGpyはSnakemakeで書かれたパイプライン。CheckM、prodigalによるタンパク質予測、Pfam_Scan、UniProt TrEMBLに対するDIAMOND検索、PhyloPhlAn3および細菌ゲノムに対するsourmash検索を含む、ビンに対する一連の分析をモジュラー式のパイプラインとして実行することができる。
インストール
こちらを参照
git clone https://github.com/WatsonLab/MAGpy.git
cd MAGpy/
mamba env create -f envs/install.yaml
conda activate magpy_install
mamba install -c etetoolkit ete3
python scripts/update_ete3.py
test
snakemake -rp -s MAGpy --cores 1 --use-conda test
データベースの準備
Githubの"10 minute install"参照
https://github.com/WatsonLab/MAGpy/blob/master/install.md
データベースは合計100GB超になるので、ダンロードと展開、index化するだけでかなりの時間がかかる。wgetでダウンロード途中で接続が切れた場合、"-c"を付けて実行すると続きからダウンロードを行うことができる。ガイドでは、sourmashのデータベースをk31しかダンロードしていないが、k21とk51もダウンロードして解凍する点に注意する。
ガイドに書いてあるようにjsonファイルを修正しておく(link)。
引用
MAGpy: a reproducible pipeline for the downstream analysis of metagenome-assembled genomes (MAGs)
Robert D Stewart, Marc D Auffret, Timothy J Snelling, Rainer Roehe, Mick Watson
Bioinformatics, Volume 35, Issue 12, June 2019, Pages 2150–2152
参考