macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードメタゲノムの解析と評価のためのsnakemakeパイプライン (MAEPLR)

(Prepirntより)

 メタゲノムアセンブリは、微生物生態系のシーケンシングデータから高品質なゲノムをできるだけ多く再構築することを目的としている。Hi-Fiロングリードなどのアセンブリを容易にする技術的進歩があるにもかかわらず、数百から数千の集団が混在する複雑な環境サンプルでは、このプロセスは依然として困難である。Maplerは、Hi-Fiロングリードメタゲノムアセンブリの品質評価に重点を置いたメタゲノムアセンブリおよび評価パイプラインである。最先端の複数の指標に加え、アセンブリプロセスで捉えきれない多様性を評価する新しい指標も組み込んでいる。Maplerはアセンブリ戦略の比較を容易にし、ゲノム再構築を妨げる方法論上のボトルネックの特定に役立つ。Maplerはオープンソースで、AGPL-3.0ライセンスのもと https://github.com/Nimauric/Mapler で公開されている。ソースコードPythonBashで実装されており、Snakemakeパイプラインとして提供されている。

 

レポジトリより

このツールの目的は、HiFiロングリードメタゲノムアセンブリの評価を行うことであり、複数の最先端のアセンブラ(metaMDBG、metaflye、hifiasm-meta)を使用してアセンブリ自体を実行したり、ユーザーのアセンブリを評価することができる。Maplerは、マーカー遺伝子含量と分類学的割り当てに基づいてアセンブリビンを古典的な品質カテゴリーに分類するだけでなく、リードのコンティグへのアラインメントを分析する。これには、マッピングされたリードとベースの比率を計算し、マッピングされたリードとマッピングされていないリードを、k-mer頻度、リード品質、および分類学的割り当てに基づいて個別に分析する。これらの結果は、テキストレポートとプロットの形式で表示される。

インストール

Github

git clone https://gitlab.inria.fr/mistic/mapler.git
cd mapler
mamba create -n mapler -c bioconda -c conda-forge 'bioconda::snakemake>=8.28' 'conda-forge::conda>=24.1.2' bioconda::snakemake-executor-plugin-slurm
conda activate mapler

 

テストラン

cd mapler/test/
tar -zxvf test_dataset.tar.gz && mv test/test/test_* test/

snakemake --use-conda --conda-create-envs-only -c 1 --configfile config/config_test.yaml

 

実際にローカルの計算機で実行するには./local_pipeline.shを使う(HPC環境向けスクリプトも用意されている)。config_test.yamlにパラメータや入出力を書いて実行する。ここではtest/にあるfastqを分析する(修正の必要なし)。

https://github.com/Nimauric/Mapler/blob/main/config/config_test.yaml

(HiFiロングリードのパスを指定する。複数指定も可能。任意でショートリードも指定できる)

 

local_pipeline.shで.yamlを指定して実行する。Maplerのsnakemakeパイプラインが呼び出されて実行される。

#assembly & evaluation 
./local_pipeline.sh config/config_test.yaml > mylog.txt

#evaluation only
./local_pipeline.sh config/config_test_evaluation_only.yaml > mylog.txt

#標準出力と標準エラーどちらも保存
./local_pipeline.sh config/config_test.yaml > mylog.txt 2>&1

 

コメント

テスト時はmetabat2のランでエラーが出ました。たくさんのツールを使うため、わずかな環境の違いや、リモートのDBのメンテナスなど、想定外のことがエラーを引き起こします。いきなり自分のデータに対して使うのは止めて、テストデータが上手くランできるかどうか確認しましょう。

引用

Mapler: a pipeline for assessing assembly quality in taxonomically rich metagenomes sequenced with HiFi reads Open Access

Nicolas Maurice , Claire Lemaitre , Riccardo Vicedomini , Clémence Frioux

Bioinformatics, Volume 41, Issue 6, June 2025

 

Mapler: Assessing assembly quality in taxonomically rich metagenomes sequenced with HiFi reads
Nicolas Maurice,  Claire Lemaitre,  Riccardo Vicedomini,  Clémence Frioux

bioRxiv, Posted March 13, 2025.

 

関連