2022/03/26 インストールコマンドの間違い修正
レポジトリより
バクテリアの配列を扱ったことがある人なら、おそらくTorsten Seemann氏(HP)のツールの一つを使ったことがあるでしょう。そのようなツールの1つがShovill(紹介)で、バクテリアのゲノムアセンブリプロセスを迅速かつ容易にしてくれます。ShovillはペアエンドのIlluminaリード用に開発されましたが、シングルエンドのリードをサポートするshovill-seというフォークもあります。
Shovillが広く使われていることと、Torsten氏が基本的に多くの基礎を築いたことから、私はShovillをDragonflyeのフレームワークとして使うことにしました。Dragonflyeは、オックスフォード・ナノポアの配列のアセンブルをサポートするShovillのフォークと考えることができます。この方法をとれば、ユーザーはパラメータを学び直す必要がなく、出力にも慣れているはずです。
Dragonflyeは、オックスフォード・ナノポアのリードを迅速かつ容易にアセンブルすることを目的としたパイプラインです。クイックの部分はまだですが、イージーの部分はできていると思います。Dragonflyeは現在、Flye、Miniasm、Ravenのアセンブラと、Racon、Medakaのポリッシャーをサポートしています。
主な手順
- ゲノムサイズとリードの長さをリードから推定する(--gsizeが指定されていない場合
- FASTQファイルを適切なデプスに減らす(デフォルトでは--depth 100(推定ゲノムサイズの100x))。
- リードからアダプターをトリミングする(--trimのみ)。
- リードに含まれるシーケンスエラーを保守的に修正
- ペアエンドリードを事前にオーバーラップ("stitch")する
- SPAdes/SKESA/Megahitを用いて、修正されたkmer範囲とPE+ロングSEリードでアセンブルする
- リードをコンティグにマッピングすることで、軽微なアセンブリエラーを修正する
- 短すぎるコンティグ、カバレッジが低すぎるコンティグ、または純粋なホモポリマーを削除する
- 適切な名前と解析可能なアノテーションを持つ最終的なFASTAの作成
2022/03/26
Dragonflye (🐉🪰) v1.0.11 is now available on Bioconda!
— Robert A. Petit III, PhD (@rpetit3) March 25, 2022
Added:
- short read polishing (Polypolish/Pilon)
- GPU support for Medaka.
Dragonflye, a fork of Shovill, is for assembling bacterial genomes with Oxford Nanopore sequencing.
Feedback welcomed!https://t.co/V9dqRfswxO pic.twitter.com/ytJmzS1Js3
Introducing Dragonflye (🐉🪰), a pipeline for assembling bacterial genomes from Nanopore reads.
— Robert A. Petit III, PhD (@rpetit3) July 22, 2021
Dragonflye is a fork of Shovill, so you can expect very similar parameters and outputs. It's also available on Bioconda!
Feedback is much appreciated.https://t.co/8wHWNlntc3
インストール
mambaを使って導入した(ubuntu18.04使用)。
mamba create -n dragonflye -c conda-forge -c bioconda dragonflye
conda activate dragonflye
> dragonflye
$ dragonflye
Dragonflye (v1.0.6) - A very fast flye
SYNOPSIS
De novo assembly pipeline for bacterial isolates with Nanopore reads
USAGE
dragonflye [options] --outdir DIR --reads READS.fastq.gz
GENERAL
--help This help
--version Print version and exit
--check Check dependencies are installed
--seed N Random seed to use (default: 42)
INPUT
--reads XXX Input Nanopore FASTQ (default: '')
--depth N Sub-sample --reads to this depth. Disable with --depth 0 (default: 150)
--minreadlen N Minimum read length. Disable with --minreadlength 0 (default: 1000)
--minquality N Minimum average sequence quality. (default: OFF) (default: 0)
--gsize XXX Estimated genome size eg. 3.2M <blank=AUTODETECT> (default: '')
OUTPUT
--outdir XXX Output folder (default: '')
--force Force overwite of existing output folder (default: OFF)
--minlen N Minimum contig length <0=AUTO> (default: 500)
--mincov n.nn Minimum contig coverage <0=AUTO> (default: 2)
--namefmt XXX Format of contig FASTA IDs in 'printf' style (default: 'contig%05d')
--keepfiles Keep intermediate files (default: OFF)
RESOURCES
--tmpdir XXX Fast temporary directory (default: '')
--cpus N Number of CPUs to use (0=ALL) (default: 8)
--ram n.nn Try to keep RAM usage below this many GB (default: 16)
ASSEMBLER
--assembler XXX Assembler: raven flye miniasm (default: 'flye')
--opts XXX Extra assembler options in quotes eg. flye: '--interations' (default: '')
POLISHER
--racon N Number of polishing rounds to conduct with Racon (default: 1)
--medaka N Number of polishing rounds to conduct with Medaka (requires --model) (default: 0)
--model XXX The model to be used by Medaka, (Assumes 1 polishing round, if --medaka not used) (default: '')
--list_models List the models available to Medaka (default: OFF)
MODULES
--nofilter Disable read length filtering (default: OFF)
--nopolish Disable assembly polishing (default: OFF)
HOMEPAGE
https://github.com/rpetit3/dragonflye - Robert A Petit III
実行方法
ONTのロングリードと出力ディレクトリ、推定ゲノムサイズを指定する。
dragonflye --reads my-ont.fastq.gz --outdir dragonflye --gsize 5000000
出力例
出力されるファイルについてはレポジトリに書かれています。アクセスしてみて下さい。
引用
GitHub - rpetit3/dragonflye: Assemble bacterial isolate genomes from Nanopore reads
関連