細菌ゲノムの正確なde novoアセンブリは、新しい細菌種の進化や病原性を理解するための基礎となるものである。Third-Generation Sequencing (TGS)の出現と普及により、バクテリアゲノムのアセンブルはかつてないほどのスピードで可能になった。しかし、現在のTGSアセンブラのほとんどは、ヒトや環状ゲノムを持たない他の生物種向けに特別に設計されたものである。さらに、多くの細菌ゲノムには反復性のDNA断片が存在し、ロングシークエンシングデータの高いエラーレートが、比較的小さなゲノムサイズであっても、そのゲノムを正確にアセンブルすることを非常に困難にしている。したがって、これらの問題を解決するための最適な手法の開発が急務となっている。
本著者らは、ロングリードのみ、あるいはショートリードとロングリードの組み合わせで細菌ゲノムをアセンブルすることができるB-assemblerを開発した。B-assemblerは、ロングリードの構造解像度と、ショートリードの精度を利用することができる。B-assemblerは、まず、ウルトラロングリードを選択・修正し、初期コンティグを作成する。次に、このコンティグの末端と重なるリードを収集する。この2ラウンドのアセンブリングと最適化されたエラー修正により、信頼性の高い、環状化されたゲノムアセンブリを実現する。数種類のバクテリアの合成およびリアルシーケンスデータを用いてベンチマークを行った結果、long-read onlyモードとhybrid-readモードの両方が、他のアセンブラと比較して構造エラーがなく、スモールエラーが少ない環状バクテリアゲノムを正確にアセンブルできることが示された。
Githubより
B-assemblerは、以下のいずれかを入力として受け取る。
- 細菌由来のロングリード(Nanoporeまたはpacbio)(未修正のロングリードでもよいが、修正したロングリードでも可)。
- 細菌分離株からのイルミナリード(ペアエンドリードが必要)と同じ単離株からのロングリード(ベストケース)
インストール
依存
B-assembler base on conda, the environments include snakemake are installed by conda,
- conda
- Python 3.6 or later
Environments of conda installed tools
- Flye v2.7
- Racon
- BWA mem
- Pilon (pilon1.23.jar)
- Samtools v1.0
- Minimap2 v2.1
- blast
git clone https://github.com/huang1990/B-assembler.git
cd B-assembler/
mamba env create -n B-assembler -f env.yaml
conda activate B-assembler
> bash run_B-assembler.sh -h
Usage: bash run_B-assembler.sh <numCPUs> <LongReadOnly|Hybrid> [output:PWD]
Require arguments:
numCPUs: int
threads provided for pipeline
LongReadOnly|Hybrid
assembly mode for your reads, type "LongReadOnly" or "Hybrid" based on your data
Optional argument:
output:
output directory, current working directory by default
テストラン
スレッド数とアセンブリモードを指定する。
cd B-assembler/
bash run_B-assembler.sh 8 LongReadOnly
- LongReadOnly|Hybrid assembly mode for your reads, type "LongReadOnly" or "Hybrid" based on your data
カレントパスにあるconfig.yamlを認識している。
B-assembler/config.yaml
シークエンシングリードのパスを指定する。ロングリードのfastqは非圧縮の状態で提供する必要がある。推定ゲノムサイズやONTかpbかなどを指定する(アセンブリのパラメータが変わる)。推定ゲノムサイズオプションは使用されているflyeのバージョンが上がると無くなるかもしれない。
出力
output/
B-assembler.fastaが最終出力。
-
B-assemblerはバクテリア単離株専用に設計されている。真核生物ゲノムやメタゲノムに適していない。また、ロングリードのデプスが浅い(<50)場合も適していない。
-
イルミナリードとロングリードが異なる単離株から得られている場合も適していない。
感想
Flyeアセンブラのオプティマイザーとも言えるツールですね。細菌ゲノムの種類にもよると思いますが、上手くいけば、手作業での修正をほぼ経ずに品質の高い環状ゲノムアセンブリを得られると思います。
引用
B-assembler: a circular bacterial genome assembler
Fengyuan Huang, Li Xiao, Min Gao, Ethan J. Vallely, Kevin Dybvig, T. Prescott Atkinson, Ken B. Waites & Zechen Chong
BMC Genomics volume 23, Article number: 361 (2022)
関連