macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ハイパフォーマンスなビニングツール BASALT

2021 3/8 追記

 

 メタゲノムビニングは、微生物の詳細な特性評価を可能にする。本研究では、メタゲノムビニングの分解能と効率を向上させるために、BASALT(Binning Across a Series of AssembLies Toolkit)と呼ばれる新しいビニングツールキットを開発した。BASALTは、冗長ビンの分離を自動化し、ベストビンを伸長して精緻化し、連続性を向上させるアルゴリズムを独自に設計している。模擬コミュニティを用いた評価では、BASALTの自動ビニングは、DASTool、VAMB、metaWRAPなどの他のビンナーと比較して、低複雑度(132ゲノム)および中複雑度(596ゲノム)の微生物コミュニティのMAG数が最大51%増加し、MAGの質が10倍向上することが分かった。BASALTを用いて、中国北西部乾燥地域の塩湖堆積物微生物群集のケーススタディ解析を行った結果、GTDBから既知の種に割り当てられなかった352個のMAGと69個の細菌・古細菌MAGを含む426個の非冗長MAGが得られた(ANI < 95%)。さらに、ソルトレイクの堆積物サンプルからは、superphylumのAsgardarchaeotaに属する2つのLokiarchaeotal MAGが観察された。これは、Lokiarchaeota属の候補種が乾燥・深海棲環境で発見された初めての事例であり、現在の地球微生物学の知見のギャップを埋めるものとなった。全体として、BASALTはメタゲノムビニングのための堅牢なツールキットであることが証明されており、さらに重要なことは、Tree of Lifeを拡大する。

 

 BASALTは、メタゲノムサンプルから冗長性のない高品質なMAGを検索するために、マッピングから自動ビニング、ビニング後の精緻化までの包括的なパイプラインを提供する多目的ツールキットである。BASALTは、自動ビン化、ビンデレプリケーション、ビン精製、再構成の4つの主要なモジュールで構成されている。

 BASALTは、ハイブリッドビンセットを生成するMetaBAT2、Maxbin2、CONCOCT(Alneberg et al.2013、Wu et al.2016、Kang et al.2019)などのツールを使用して自動ビン化を行う。生のハイブリッドビンセットは、最初に、同じアセンブリから得られた重複ビンを除去するために、自作のBin Dereplicationモジュールを用いてフィルタリングされる。各アセンブリの非冗長ビンは、次にマージされ、カスタマイズされた平均ヌクレオチド同一性(ANI)カットオフで異なるグループに分類される。ビンの各グループは、すべてのサンプルから得られた単一のハイブリッドビンセットに選択する前に、冗長ビンの識別をさらに可能にするコアコンティグを分類する自作アルゴリズムによってさらにフィルタリングされる。選択されたビンセットは、カバレッジおよびテトラヌクレオチド頻度(TNF)を統合して、複数のしきい値を有する四分位間範囲(IQR)法を使用して外れ値を除去する臨界外れ値除去アルゴリズムを使用してさらにフィルタリングされる。次に、アセンブリファイルから配列を検索し、ORフィルタリングされたビン内の既存のコンティグと接続して、接続されたコンティグの可能性のある拡張配列プールを作成し、BASALTは、より高い品質値を持つ洗練されたビンを比較して選択される。さらに、異なるアセンブリから得られた重複ビンを OLC マージされたビンにオーバーラップさせるために、repressed Overlap-Layout-Consensus (rOLC)ステップを実施し、その後、最終的なビンセットを生成するために再アセンブリステップを実施する。配列検索と再構成ステップでは、TGSから得られたロングリードを利用してギャップを補完し、ビン上の重複領域を結合することで、完全性を高め、コンタミネーションを低減させることができる。

 

tutorial

https://github.com/EMBL-PKU/BASALT/blob/master/TUTORIAL.md

 

 

インストール

ubuntu18.04にて、mamba(condaの高速な実装)で環境を作ってテストした。

Github

git clone https://github.com/EMBL-PKU/BASALT.git
cd BASALT/

site=https://mirrors.tuna.tsinghua.edu.cn/anaconda
conda config --add channels ${site}/pkgs/free/
conda config --add channels ${site}/pkgs/main/
conda config --add channels ${site}/cloud/conda-forge/
conda config --add channels ${site}/cloud/bioconda/

mamba env create -n BASALT --file basalt_env.yml
conda activate BASALT

unzip BASALT.zip
chmod -R 750 BASALT
mv BASALT/* <your>/<home>/miniconda3/envs/BASALT/bin

 

 

実行方法

複数のメタゲノムアセンブリ、 複数のペアエンドfastq (raw)、パラメータを指定する。スレッド数40、最大メモリ使用量250GB、ビニングはsensitiveの感度で実行。さらにreassemblyも実行。

BASALT -al megahit.fa,metaspades.fa -ds  dataset1_read1.fq,dataset1_read2.fq;dataset2_read1.fq,dataset2_read2.fq -t 40 -r 250 --autobinning sensitive --reassembly --max-ctn 20 --mix-cpn 35
  • -al   Multiple assembly files for binning. Assembly files can be short reads assembled fasta, long reads assembled fasta or hybrid assembled fasta. Fasta files are separated by comma.

  • -ds   Sequence files for binning. Only short read sequences are valid. Default sequence files are pair-end library. Sequence files within pair-end library are separated by comma, and different pair-end library are separated by "\;".

Optional parameters:

  • -t   Number of threads. For example, -t 120. Default thread is set at 2.

  •  

    -r   Maximum memory limit at gigabytes (GB). For example, -r 750. Default memory limit is set at 64GB. The maximum memory limit is critical for reassembly.
  • --long-reads   Long read sequences. Sequences are separated by “,”.
  • --continue   Continue run from the last available check-point. BASALT will check the checkpoints and start from the last checkpoint. The default of this parameter is on.
  • --new   Restart binning step.
  • --autobinning   Autobinning options. Available options are “quick” (default), “sensitive” and “more-sensitive”. The computational time will increase if later options were selected, but more high-quality bins are expected to be recovered.
  • --reassembly   Reassembly options. Available options are “quick-refinement” (default) and “reassembly”. If reassembly was needed, please use option --reassembly. BASALT will perform short reads assembly if only short read sequences were provided. Alternatively, BASALT will perform hybrid assembly if both short read and long read sequences were provided.
  • --max-ctn   Contamination cutoff in the refinement step. Default cutoff is set at 20, which means BASALT will only refine those bins with contamination at 20 or below.
  • --min-cpn   Completeness cutoff in the refinement step. Default cutoff is set at 35, which means BASALT will only refine those bins with completeness at 35 or above.

     

 

スレッド数120、最大メモリ使用量750GB。ビニングは more-sensitiveの感度で実行。さらにreassemblyもショートリードとロングリード両方を使って実行。そのためにロングリードも指定する。 

BASALT -al assembly1.fa,assembly2.fa,assembly3.fa -ds dataset1_read1.fq,dataset1_read2.fq;dataset2_read1.fq,dataset2_read2.fq --long-reads ont1.fq,ont2.fq -t 120 -r 750 --autobinning more-sensitive --reassembly --max-ctn 20 --mix-cpn 35

ランにはかなりの時間がかかる。

 

複数回のビニングと評価が繰り返し行われる。テスト時は後半のステップでエラーになった。ランできる様になったら追記します。

引用

Recovery of high-qualitied Genomes from a deep-inland Salt Lake Using BASALT

Ke Yu, Zhiguang Qiu, Rong Mu, Xuejiao Qiao, Liyu Zhang, Chun-Ang Lian, Chunfang Deng, Yang Wu, Zheng Xu, Bing Li, Baozhu Pan, Yunzeng Zhang, Lu Fan, Yongxin Liu, Huiluo Cao, Tao Jin, Baowei Chen, Fan Wang, Yan Yan, Luhua Xie, Lijie Zhou, Shan Yi, Song Chi, Tong Zhang, Weiqin Zhuang

bioRxiv, Posted March 05, 2021

https://t.co/6Cuf8WCwlc

 

関連