macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

環状細菌ゲノムアセンブラ B-assembler

 

 細菌ゲノムの正確なde novoアセンブリは、新しい細菌種の進化や病原性を理解するための基礎となるものである。Third-Generation Sequencing (TGS)の出現と普及により、バクテリアゲノムのアセンブルはかつてないほどのスピードで可能になった。しかし、現在のTGSアセンブラのほとんどは、ヒトや環状ゲノムを持たない他の生物種向けに特別に設計されたものである。さらに、多くの細菌ゲノムには反復性のDNA断片が存在し、ロングシークエンシングデータの高いエラーレートが、比較的小さなゲノムサイズであっても、そのゲノムを正確にアセンブルすることを非常に困難にしている。したがって、これらの問題を解決するための最適な手法の開発が急務となっている。

 本著者らは、ロングリードのみ、あるいはショートリードとロングリードの組み合わせで細菌ゲノムをアセンブルすることができるB-assemblerを開発した。B-assemblerは、ロングリードの構造解像度と、ショートリードの精度を利用することができる。B-assemblerは、まず、ウルトラロングリードを選択・修正し、初期コンティグを作成する。次に、このコンティグの末端と重なるリードを収集する。この2ラウンドのアセンブリングと最適化されたエラー修正により、信頼性の高い、環状化されたゲノムアセンブリを実現する。数種類のバクテリアの合成およびリアルシーケンスデータを用いてベンチマークを行った結果、long-read onlyモードとhybrid-readモードの両方が、他のアセンブラと比較して構造エラーがなく、スモールエラーが少ない環状バクテリアゲノムを正確にアセンブルできることが示された。

 

Githubより

B-assemblerは、以下のいずれかを入力として受け取る。

  • 細菌由来のロングリード(Nanoporeまたはpacbio)(未修正のロングリードでもよいが、修正したロングリードでも可)。
  • 細菌分離株からのイルミナリード(ペアエンドリードが必要)と同じ単離株からのロングリード(ベストケース)

インストール

依存

B-assembler base on conda, the environments include snakemake are installed by conda,

Environments of conda installed tools

  • Flye v2.7
  • Racon
  • BWA mem
  • Pilon (pilon1.23.jar) 
  • Samtools v1.0
  • Minimap2 v2.1
  • blast

Github

git clone https://github.com/huang1990/B-assembler.git
cd B-assembler/
mamba env create -n B-assembler -f env.yaml
conda activate B-assembler

bash run_B-assembler.sh -h

Usage: bash run_B-assembler.sh <numCPUs> <LongReadOnly|Hybrid> [output:PWD]

 

Require arguments:

numCPUs: int

         threads provided for pipeline

 

LongReadOnly|Hybrid

         assembly mode for your reads, type "LongReadOnly" or "Hybrid" based on your data

 

Optional argument:

output:

         output directory, current working directory by default

 

 

 

テストラン

スレッド数とアセンブリモードを指定する。

cd B-assembler/
bash run_B-assembler.sh 8 LongReadOnly
  • LongReadOnly|Hybrid   assembly mode for your reads, type "LongReadOnly" or "Hybrid" based on your data

カレントパスにあるconfig.yamlを認識している。

B-assembler/config.yaml

シークエンシングリードのパスを指定する。ロングリードのfastqは非圧縮の状態で提供する必要がある。推定ゲノムサイズやONTかpbかなどを指定する(アセンブリのパラメータが変わる)。推定ゲノムサイズオプションは使用されているflyeのバージョンが上がると無くなるかもしれない。

 

出力

output/

B-assembler.fastaが最終出力。

  • B-assemblerはバクテリア単離株専用に設計されている。真核生物ゲノムやメタゲノムに適していない。また、ロングリードのデプスが浅い(<50)場合も適していない。

  • イルミナリードとロングリードが異なる単離株から得られている場合も適していない。

 

感想

Flyeアセンブラオプティマイザーとも言えるツールですね。細菌ゲノムの種類にもよると思いますが、上手くいけば、手作業での修正をほぼ経ずに品質の高い環状ゲノムアセンブリを得られると思います。

引用

B-assembler: a circular bacterial genome assembler
Fengyuan Huang, Li Xiao, Min Gao, Ethan J. Vallely, Kevin Dybvig, T. Prescott Atkinson, Ken B. Waites & Zechen Chong 
BMC Genomics volume 23, Article number: 361 (2022) 

 

関連