macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MetaProb 2

 

現在の技術では、事前に培養することなく、環境から直接微生物群集の配列を決定することができる。微生物サンプルを解析する際の大きな問題の一つは、そのサンプルに含まれる種を特定するために、リードを分類学的にアノテーションすることである。分類学的解析の主な問題点は、既存のリファレンスデータベースに分類学的に関連するゲノムがないこと、種の存在比が不均一であること、シーケンスエラーである。微生物群集は、ゲノムビニングと呼ばれるリードのクラスター化によって研究することができる。本研究では、MetaProb 2を発表する。MetaProb 2は、リードアセンブリと確率的k-mers統計に基づいた、教師なしのゲノムビニング法である。MetaProb 2の特徴は、最小化器を用いて効率的にリードをユニティグに組み立てることと、グラフのモジュール性に基づいたコミュニティ検出アルゴリズムを用いてユニティグをクラスタリングし、代表的なユニティグを検出することである。MetaProb 2の有効性は、MetaProb、AbundanceBin、Bimeta、MetaClusterなどの最先端のビニングツールと比較して、シミュレートされたデータセットと実データセットの両方で実証された。実際のデータセットでは、MetaProb 2は、計算資源を節約しながら有望な結果を得ることができる唯一のツールである。

 

Githubより

 MetaProb 2は、リードアセンブリと確率的なk-mers統計に基づいた教師なしのビニング法です。MetaProb 2の特徴は、最小化器を用いてリードを効率的にユニティグに組み立てることと、グラフのモジュール性に基づいたコミュニティ検出アルゴリズムを用いてユニティグをクラスタリングし、代表的なユニティグを検出することである。MetaProb 2の有効性は、MetaProb, Abun- danceBin, Bimeta, MetaClusterなどの最先端のビニングツールと比較して、シミュレーションおよび合成データセットの両方で実証されています。

 MetaProb2は、MetaProbの結果を改善するために、マッピングおよびアセンブリソフトウェアと新しいメタゲノムコミュニティ検出スクリプトを併用したメタゲノミックビニングツールで、ソースコードはこちらから入手できます。パイプラインを簡単に動作させるためのpython3とシェルスクリプトを提供します。3つの異なるソフトウェアの使い方は、上記のリンクでよく説明されています。カスタムメイドでない場合は、ソフトウェア、ライブラリ、このリポジトリで提供される2つのpython3スクリプト、およびシェルスクリプトをダウンロードするだけです。
また、METAPROB2.shでは、すべてのツールのパスを設定して、正常に動作するようにしてください。./METAPROB2.sh -h を実行すると、すべてのパラメータがわかります。

 

インストール

依存

.Minimap2

2.Miniasm

3.MetaProb

GIthub

#conda(link
mamba create -n metaprob2 -y
conda activate metaprob2
mamba install -c bioconda metaprob minimap2 miniasm -y

$ ./METAPROB2.sh 

Usage: METAPROB2.sh [-s NUM SPECIES] [-k KMER-SIZE] [-w WINDOW-SIZE] [-m MAX-CHAINED-UTG-LENGTH] [-o OPT-PARAMETER-MODULARITY] [-l SKIP-READS-LEFT-OUT] [-r MIN-LENGTH MAX-LENGTH] <input_file> <output_folder> <name>

 

Arguments:

     -h              print this help and exit

     -s              number of species (default:estimated by MetaProb2)

     -k              kmer size for minimap2 (default:15)

     -w              window size for minimap2 (default:10)

     -t              number of cores (default:4)

     -c              discard chains with score < c for minimap2 (default:40)

     -m              max length chained utgs during MetaProb2 (default:20000)

     -o              optimization parameter for modularity optimization (default:0.001)

     -l              skip the reads left out by miniasm (default:False)

     -p              keep the temporary folder with all the output files(default:False)

 

Positional arguments:

     <input_file>         input in FASTA/Q format

     <output_folder>      output_folder

     <name>               name for output files

 

 

ランするにはMETAPROB2 .shのツールのパスを設定する必要がある。

f:id:kazumaxneo:20211116100826p:plain

 

実行方法

fastqを指定する。

METAPROB2 -t 20 input.fastq output_dir
  •  -s              number of species (default:estimated by MetaProb2)
  •  -c              discard chains with score < c for minimap2 (default:40)
  • -t                number of cores (default:4)

 

引用

MetaProb 2: Metagenomic Reads Binning Based on Assembly Using Minimizers and K-Mers Statistics
Francesco Andreace, Cinzia Pizzi, Matteo Comin

J Comput Biol. 2021 Aug 26

 

関連