メタゲノム研究により、微生物群集の分類学的構成や機能の詳細が明らかになった。完全なメタゲノム解析には、目的別に異なるツールが必要であり、これらのツールの選択とセットアップは依然として困難である。さらに、選択したツールセットは、結果で報告される精度、フォーマット、機能識別子に影響を与え、結果の解釈と得られた生物学的な答えに影響を与える。そこで本著者らは、文献から入手可能な最新のツールを調査し、シミュレーションデータセットを作成し、ベンチマークを実行して、高感度で柔軟なメタゲノム解析パイプラインを設計した。ここでは、包括的なメタゲノム解析を行うための効率的なパイプラインであるMEDUSAを紹介する。MEDUSAは、ショットガンデータに対して、前処理、アセンブリ、アライメント、分類、機能アノテーションを行い、ユーザーが作成した辞書を利用して、アノテーションを任意の機能識別子に変換することができる。MEDUSAには、fastp, Bowtie2, DIAMOND, Kaiju, MEGAHITなどのツールや、BLAST/DIAMONDアライメント結果にアノテーションを転送するPythonで実装された新しいツールなどがある。これらのツールはConda経由でインストールされ、ワークフローはSnakemakeで管理されるため、セットアップと実行が容易になる。MEGAN 6 Community Editionと比較して、MEDUSAはより多くの生物種、特に存在量の少ない生物種を正しく同定し、Gene Ontology識別子を用いた機能解析により適している。
インストール
wget https://github.com/arthurvinx/Medusa/archive/refs/heads/main.zip
unzip main.zip
cd MEDUSA-main/
#anaconda-clinetのインストール
mamba install anaconda-client -y
mamba env create arthurvinx/medusaPipeline
conda activate medusaPipeline
pip3 install -U plyvel --no-cache-dir --no-deps --force-reinstall
#snamkemakeのインストール
mamba create -c bioconda -c conda-forge -n snakemake snakemake -y
conda activate snakemake
snakemake --help
実行方法
Pipeline/data/rawに生のFASTQファイルを配置する。ペアエンドのファイル名には "_1.fastq" と "_2.fastq" というサフィックスが必要。
cd MEDUSA-main/
mkdir -p Pipeline/data/raw/
Pipeline/data/rawにfastqを配置する。ここではsample1, sample2を配置した。
MEDUSA-main/から実行する。
#全コア使用
snakemake --cores
#20コア使用
snakemake --cores 20
#20コア使用,メモリ240GBに制限
snakemake --cores 20 --resources mem_mb=240000
nrのダウンロード(2022/04/01時点で240GB)、ビルド(nr.dmnd; サイズは245GB)など行われるので、初回はかなり時間がかかります。ディスクの空き容量に注意して下さい。最低でも500GB以上は必要です。
#失敗した時に再実行する
#ロック解除
snakemake --cores --unlock
#再実行
snakemake --cores --rerun-incomplete
メモ
小さいデータを用意して、16スレッド使用して10日ほどランしているが、計算が終了しない。それから1週間経っても計算が終了しなかったので中止した。
引用
MEDUSA: A Pipeline for Sensitive Taxonomic Classification and Flexible Functional Annotation of Metagenomic Shotgun Sequences
Diego A A Morais, João V F Cavalcante, Shênia S Monteiro, Matheus A B Pasquali, Rodrigo J S Dalmolin
Front Genet. 2022 Mar 7;13:814437
関連