macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムアセンブリゲノムの品質を評価するパイプライン MAGqual

 

 微生物群集の全ゲノム配列を決定するメタゲノミクスは、複雑な生態系に対する洞察を提供してきた。新規微生物の発見を容易にし、群集の相互作用を説明し、様々な分野で応用されている。ハイスループットと第3世代シーケンシング技術の進歩は、その普及にさらに拍車をかけている。とはいえ、生成される膨大なデータを管理し、変動するデータセットの質に対処することは、依然として継続的な課題である。もう1つの課題は、研究間で使用されるアセンブルおよびビニング戦略の数から生じる。データセットと解析ツールの比較は、メタゲノム品質の尺度を必要とするため複雑である。メタゲノムシーケンス固有の限界は、複雑な群集の配列決定を伴うことが多いため、伝統的な培養方法では群集メンバーの調査が困難であり、参照配列が欠如しているものが多いということである。MIMAG標準(Bowers et al., 2017)は、比較のためにメタゲノム品質を評価する方法を提供することを目的としているが、広く採用されていない。このギャップを埋めるために、ここで概説するMAGqualパイプラインは、大規模にメタゲノム品質を評価し、メタデータを生成するためのアクセス可能な方法を提供する。MAGqualは、可読性と拡張性を確保するためにSnakemakeで構築されており、そのオープンソースの性質は、アクセシビリティ、コミュニティ開発、更新の容易さを促進する。ここでは、パイプラインMAGqual(metagenome-assembled genome qualifier)を紹介し、MIMAG標準と比較した場合のメタゲノムデータセットの品質を決定するための有効性を実証する。MAGqualはSnakemake、R、Pythonで構築されており、GitHubhttps://github.com/ac1513/MAGqual、MITライセンスの下で利用可能である。

 

インストール

実行するにはcondaとSnakemakeが導入されている必要がある。他の依存ツールはsnakemakeによって実行中に導入される。

依存

  • Conda
  • Snakemake v.6.17.1 or higher
  • Python 3.10.1 or higher

Github

#環境を作る
mamba create -n MAGqual -y
conda activate MAGqual
mamba install bioconda::snakemake -y

#本体
git clone https://github.com/ac1513/MAGqual.git
cd MAGqual/

> python MAGqual.py -h

usage: MAGqual.py [-h] -a ASSEMBLY -b BINDIR [-p PREFIX] [-j JOBS]

                  [--cluster CLUSTER] [--checkmdb CHECKMDB]

                  [--baktadb BAKTADB]

 

Required: python MAGqual.py -a/--asm assembly.fa -b/--bins bins_dir/

 

optional arguments:

  -h, --help            show this help message and exit

  -a ASSEMBLY, --asm ASSEMBLY

                        location of the assembly used to generate the bins

  -b BINDIR, --bins BINDIR

                        location of the directory containing the bins to run

                        through MAGqual

  -p PREFIX, --prefix PREFIX

                        prefix for the MAGqual run, default = MAGqual_YYYYMMDD

  -j JOBS, --jobs JOBS  The number of cores to be used or if running on a HPC

                        the number of jobs to be run concurrently, default = 1

  --cluster CLUSTER     OPTIONAL: The type of cluster to run MAGqual on a HPC

                        system (available options: slurm), don’t use if

                        running MAGqual locally.

  --checkmdb CHECKMDB   OPTIONAL: location of a ready installed database for

                        CheckM

  --baktadb BAKTADB     OPTIONAL: location of a ready installed database for

                        Bakta, note must be v5.0 or above

(

 

 

実行方法

メタゲノムアセンブリfastaファイルと、それからbinningして得たbin配列のディレクトリを指定する。

python MAGqual.py --asm assembly.fa --bins bins_dir/
  • -a <ASSEMBLY>   location of the assembly used to generate the bins (Required)
  • -b <BINDIR>   path containing the directory containing the bins to run through MAGqual (Required)

 

実行時、snakemakeで環境作成中にエラーを起こした(ubuntu22, python3.12.3)。改善出来たら追記します。

 

引用

MAGqual: A standalone pipeline to assess the quality of metagenome-assembled genomes

Annabel Cansdale,  James P.J. Chong

bioRxiv, Posted December 13, 2023