ロングリードのアセンブラ NextDenovo - macでインフォマティクス

2022/06/09 追記

2024/04/28 論文追記、05/23追記

　NextDenovoは、ロングリード（CLR、HiFi、ONT）用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが（PacBio HiFiリードは修正ステップなし）、必要な計算資源とストレージは大幅に少なくなっています。アセンブル後の1塩基あたりの精度は約98～99.8％ですが、さらに1塩基精度を向上させたい場合は、NextPolishを利用してください。

　NextDenovoには2つのコアモジュールがあります。NextCorrectとNextGraphです。NextCorrectは約15%のシーケンスエラーを含むノイズの多いロングリードの補正に、NextGraphは補正されたリードを用いた文字列グラフの作成に利用できます。また、minimap2の改良版といくつかの便利なユーティリティがbin/に含まれています（詳しくはユーティリティをご覧ください）。

　ヒトとショウジョウバエのOxford Nanoporeロングリードと、シロイヌナズナのPacBioロングリード（CLR）を用いて、NextDenovoと他のアセンブラとの比較ベンチマークを行ったところ、NextDenovoの方が、より多くのリードを生成しました。NextDenovoは、他のツールと比較して、より少ないコンティグでより連続したアセンブリを生成します。また、NextDenovoは、アセンブリの一貫性と一塩基の正確さの点で、高いアセンブリ精度を示しています。

Documentation

FAQ

https://nextdenovo.readthedocs.io/en/latest/FAQ.html

Tutorial

https://nextdenovo.readthedocs.io/en/latest/TEST1.html

インストール

condaでpython3の環境を作ってテストした。

依存

Python (Support python 2 and 3):
Paralleltask

Github

mamba create -n nextdenovo python=3.10 -y
conda activate nextdenovo
pip install paralleltask

#本体
wget https://github.com/Nextomics/NextDenovo/releases/download/v2.5.0/NextDenovo.tgz
tar -vxzf NextDenovo.tgz && cd NextDenovo
#PATHを通す
export PATH=$PWD:$PATH

実行方法

１、ロングリードのリストの作成

ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

２、configファイルの雛形を用意する。

cp doc/run.cfg ./

パラメータを編集する。

２行目はローカルの計算環境ならlocal、３行目はprefix、４行目は全ステップ実行するならall、７行目は同時に走るサブタスクの数を制御している。デフォルトだとかなりの計算資源を要する。メモリも１プロセスあたり32~64 gb RAM 使用するので注意する（20のまま試した時は、512GB物理メモリでは不足した。10に減らした）。８行目は生のロングリードならraw、９行目はONTならont、１０行目はステップ１で作ったファイルのパス。１１行目は作業ディレクトリ（最終出力も書き込まれる）。それ以降はパラメータ。FAQで簡単に説明されている。

３、NextDenovoのラン。

nextDenovo run.cfg

出力

全ステップ実行結果

引用

GitHub - Nextomics/NextDenovo: Fast and accurate de novo assembler for long reads

関連

自分で試してみた限り、計算資源を極めて効率的に使い、短い時間で連続性の高いコンティグ配列を得られるという印象です。

下に引用したラージゲノムのアセンブリ比較論文２つでNextDenovoは良い結果を出していますね。特にコンティグの連続性の面で突出しています。コンティグの連続性の高さは保守的でない事、すなわちアセンブリエラーの多さの裏返しである可能性があるので安易に評価する事は出来ませんが、NECATと共にラージゲノムのアセンブリでは試してみたいアセンブラの１つになると思います。

追記

NextDenovoはフェーズ化されたゲノムアセンブリは作らない。

=> 2024年4月になって出た論文の表２を見ると、wtdbg2、flye、canu、necatなどと比較して連続性は高く、アセンブリエラーは最も少ない。パフォーマンスが高い事がわかる。

参考文献１

”異なる性質を持つ2つの軟体動物ゲノム（腹足類Chrysomallon squamiferum (356.6 Mb, 1.59% heterozygosity)と二枚貝Mytilus coruscus (1593 Mb, 1.94% heterozygosity)）のONT生リードをもとに、10種類のアセンブラをベンチマークした。高品質なゲノムを得るためには40-50XのONTリードで十分であり、C. squamiferumに代表されるコンパクトでヘテロ接合性の低いゲノムにはFlye、M. coruscusに代表される反復性が高くヘテロ接合性の高い軟体動物ゲノムにはNextDenovoが推奨アセンブラとして適していることが示唆された。”

（PMC アーカイブ）

In our cases, Flye is doing the best for Scaly-foot Snail genome and NextDenovo for musselhttps://t.co/uXW7VaXD4H
— Jin Sun @OUC (@JinSun_hkust) January 3, 2021

参考文献２

”PacBioは99%以上の塩基レベル分解能でHiFiリードを生成し、ONTは2Mbの長さのリードを生成した。この2つの最新プラットフォームを1つのイネ個体に適用し、2つのアセンブリを比較することで、それぞれの利点と限界について検討した。PacBioのコンティグ数は394、染色体レベルのコンティグ数は3であったのに対し、ONTのウルトラロングリードはコンティグ数が18、うち10が1つの染色体にアセンブルされるなど、より高いコンティグ数を示した。また、ONTのウルトラロングリードにより、長い繰り返し領域に起因するアセンブリエラーが防止された。PacBioのアセンブリでは、合計44遺伝子の誤った冗長性と10遺伝子の誤った損失が観察され、これらの長い繰り返し領域の遺伝子ファミリーを過大評価または過小評価することにつながった。また、PacBio HiFiリードは、ONTアセンブリに比べて、1塩基エラーや小さな挿入・欠失のレベルでのエラーが非常に少ないアセンブリを生成した。”

2022/06/09追記

参考文献2のONTリードをダウンロードして、Phredスケールのクオリティ8以上、２kb以上のリードだけ取り出し、NextDenovoを使って自分でもアセンブルしてみた。Xeon E5 v4 2680 dual 30スレッドで半日かかった。得られたコンティグ数は22で、論文の結果と同じだった。以下はアセンブルに使用したリードのNanoplotによる要約統計。

2024/04/27

NextDenovo: an efficient error correction and accurate assembly tool for noisy long reads

Jiang Hu, Zhuo Wang, Zongyi Sun, Benxia Hu, Adeola Oluwakemi Ayoola, Fan Liang, Jingjing Li, José R. Sandoval, David N. Cooper, Kai Ye, Jue Ruan, Chuan-Le Xiao, Depeng Wang, Dong-Dong Wu & Sheng Wang

Genome Biology volume 25, Article number: 107 (2024)