macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムアセンブリゲノムの下流解析のための再現性のあるパイプライン MAGpy

2022/02/20 追記

 

 メタゲノミクスは、環境中に存在するすべてのゲノムからDNAをアッセイするための強力なツールである。近年のバイオインフォマティクスの進歩により、ほぼ完全なメタゲノム・アセンブル・ゲノム(MAG)の迅速なアセンブルが可能になっており、同定や機能的特性評価を可能にするために、数千のゲノムを同時にアノテーションし、特性評価できる再現性のあるパイプラインが必要とされている。MAGpyは、複数のゲノムアセンブリFASTA形式で受け取り、複数の公開データベースと比較し、品質をチェックし、分類法を提案し、系統樹を描く、スケーラブルで再現性の高いパイプラインである。MAGpyはhttps://github.com/WatsonLab/MAGpyで公開されている。

 

install

MAGpy/install.md at master · WatsonLab/MAGpy · GitHub

 

MAGpyはSnakemakeで書かれたパイプライン。CheckM、prodigalによるタンパク質予測、Pfam_Scan、UniProt TrEMBLに対するDIAMOND検索、PhyloPhlAn3および細菌ゲノムに対するsourmash検索を含む、ビンに対する一連の分析をモジュラー式のパイプラインとして実行することができる。

 

インストール

こちらを参照

Github

git clone https://github.com/WatsonLab/MAGpy.git
cd MAGpy/
mamba env create -f envs/install.yaml
conda activate magpy_install
mamba install -c etetoolkit ete3
python scripts/update_ete3.py

test

snakemake -rp -s MAGpy --cores 1 --use-conda test

 

 

データベースの準備

 Githubの"10 minute install"参照 

https://github.com/WatsonLab/MAGpy/blob/master/install.md

データベースは合計100GB超になるので、ダンロードと展開、index化するだけでかなりの時間がかかる。wgetでダウンロード途中で接続が切れた場合、"-c"を付けて実行すると続きからダウンロードを行うことができる。ガイドでは、sourmashのデータベースをk31しかダンロードしていないが、k21とk51もダウンロードして解凍する点に注意する。

ガイドに書いてあるようにjsonファイルを修正しておく(link)。

 

 

 

引用

MAGpy: a reproducible pipeline for the downstream analysis of metagenome-assembled genomes (MAGs)
Robert D Stewart, Marc D Auffret, Timothy J Snelling, Rainer Roehe, Mick Watson
Bioinformatics, Volume 35, Issue 12, June 2019, Pages 2150–2152

 

参考

https://www.nativemicrobials.com/downloads/stewart2019.pdf