macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

オックスフォードナノポアのリードのアセンブルを素早く行う dragonflye

2022/03/26 インストールコマンドの間違い修正

 

レポジトリより

 バクテリアの配列を扱ったことがある人なら、おそらくTorsten Seemann氏(HP)のツールの一つを使ったことがあるでしょう。そのようなツールの1つがShovill(紹介)で、バクテリアのゲノムアセンブリプロセスを迅速かつ容易にしてくれます。ShovillはペアエンドのIlluminaリード用に開発されましたが、シングルエンドのリードをサポートするshovill-seというフォークもあります。

 Shovillが広く使われていることと、Torsten氏が基本的に多くの基礎を築いたことから、私はShovillをDragonflyeのフレームワークとして使うことにしました。Dragonflyeは、オックスフォード・ナノポアの配列のアセンブルをサポートするShovillのフォークと考えることができます。この方法をとれば、ユーザーはパラメータを学び直す必要がなく、出力にも慣れているはずです。

 Dragonflyeは、オックスフォード・ナノポアのリードを迅速かつ容易にアセンブルすることを目的としたパイプラインです。クイックの部分はまだですが、イージーの部分はできていると思います。Dragonflyeは現在、Flye、Miniasm、Ravenアセンブラと、Racon、Medakaのポリッシャーをサポートしています。

 

主な手順

  1. ゲノムサイズとリードの長さをリードから推定する(--gsizeが指定されていない場合
  2. FASTQファイルを適切なデプスに減らす(デフォルトでは--depth 100(推定ゲノムサイズの100x))。
  3. リードからアダプターをトリミングする(--trimのみ)。
  4. リードに含まれるシーケンスエラーを保守的に修正
  5. ペアエンドリードを事前にオーバーラップ("stitch")する
  6. SPAdes/SKESA/Megahitを用いて、修正されたkmer範囲とPE+ロングSEリードでアセンブルする
  7. リードをコンティグにマッピングすることで、軽微なアセンブリエラーを修正する
  8. 短すぎるコンティグ、カバレッジが低すぎるコンティグ、または純粋なホモポリマーを削除する
  9. 適切な名前と解析可能なアノテーションを持つ最終的なFASTAの作成

 

2022/03/26

 

インストール

mambaを使って導入した(ubuntu18.04使用)。

Github

mamba create -n dragonflye -c conda-forge -c bioconda dragonflye
conda activate dragonflye

> dragonflye

$ dragonflye

Dragonflye (v1.0.6) - A very fast flye

 

SYNOPSIS

  De novo assembly pipeline for bacterial isolates with Nanopore reads

USAGE

  dragonflye [options] --outdir DIR --reads READS.fastq.gz

GENERAL

  --help          This help

  --version       Print version and exit

  --check         Check dependencies are installed

  --seed N        Random seed to use (default: 42)

INPUT

  --reads XXX     Input Nanopore FASTQ (default: '')

  --depth N       Sub-sample --reads to this depth. Disable with --depth 0 (default: 150)

  --minreadlen N  Minimum read length. Disable with --minreadlength 0 (default: 1000)

  --minquality N  Minimum average sequence quality. (default: OFF) (default: 0)

  --gsize XXX     Estimated genome size eg. 3.2M <blank=AUTODETECT> (default: '')

OUTPUT

  --outdir XXX    Output folder (default: '')

  --force         Force overwite of existing output folder (default: OFF)

  --minlen N      Minimum contig length <0=AUTO> (default: 500)

  --mincov n.nn   Minimum contig coverage <0=AUTO> (default: 2)

  --namefmt XXX   Format of contig FASTA IDs in 'printf' style (default: 'contig%05d')

  --keepfiles     Keep intermediate files (default: OFF)

RESOURCES

  --tmpdir XXX    Fast temporary directory (default: '')

  --cpus N        Number of CPUs to use (0=ALL) (default: 8)

  --ram n.nn      Try to keep RAM usage below this many GB (default: 16)

ASSEMBLER

  --assembler XXX Assembler: raven flye miniasm (default: 'flye')

  --opts XXX      Extra assembler options in quotes eg. flye: '--interations' (default: '')

POLISHER

  --racon N       Number of polishing rounds to conduct with Racon (default: 1)

  --medaka N      Number of polishing rounds to conduct with Medaka (requires --model) (default: 0)

  --model XXX     The model to be used by Medaka, (Assumes 1 polishing round, if --medaka not used) (default: '')

  --list_models   List the models available to Medaka (default: OFF)

MODULES

  --nofilter      Disable read length filtering (default: OFF)

  --nopolish      Disable assembly polishing (default: OFF)

HOMEPAGE

  https://github.com/rpetit3/dragonflye - Robert A Petit III

 

 

実行方法

ONTのロングリードと出力ディレクトリ、推定ゲノムサイズを指定する。

dragonflye --reads my-ont.fastq.gz --outdir dragonflye --gsize 5000000

 

出力例

f:id:kazumaxneo:20211021224804p:plain

出力されるファイルについてはレポジトリに書かれています。アクセスしてみて下さい。

引用

GitHub - rpetit3/dragonflye: Assemble bacterial isolate genomes from Nanopore reads

 

関連