macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ONTのメタゲノムシークエンシングデータからリファレンス品質の高品質MAGをアセンブルする NanoPhase

 

 Genome-resolved metagenomicsの正確で包括的な解析は、多様な微生物群からリファレンス品質(完全で高品質な)のゲノムを再構築することに大きく依存している。Nanoporeロングリードにより、ドラフトゲノムのギャップ解消が進んでいるが、ゲノム品質の向上には、大規模かつ時間のかかる高精度なショートリードの研磨が必要である。ここでは、Nanoporeロングリードのみを用いて複雑なメタゲノムから参照品質のゲノムを再構築するオープンソースツール、NanoPhaseを紹介する。Kit 9とQ20+ケミストリーを用いて、まずZymoBIOMICS腸内細菌叢スタンダード(21株を含む)を用いてNanoPhaseの実現可能性を評価し、次に複雑な活性汚泥微生物叢をシーケンスして、275個のMAGを中央値90%の完全性で再構築した。NanoPhaseは高い精度を維持しながらMAGの連続性(MAG N50の中央値:735 Kb、従来のショートリードベースの手法と比較して44-86倍)を改善し、ターゲットマイクロバイオームを完全かつ正確に調査できることが示された。さらに、これらの高コンティグリティなリファレンス品質ゲノムを活用し111個のMAG内に165のプロファージを同定した。そのうち5つは活性プロファージであった。これは、プロファージが微生物集団内の遺伝子多様性の無視されたソースであり、活性汚泥マイクロバイオームの微生物構成を形成する影響因子であることを示している。本結果は、NanoPhaseがNanoporeロングリードのみを用いて複雑なメタゲノムから直接参照品質のゲノムを再構成できることを実証している。さらに、16S rRNA遺伝子や生合成遺伝子クラスター以外にも、生成された高精度・高連続性MAGは、プロファージなどの重要な移動性遺伝要素のホスト同定を改善し、活性汚泥生態系の微生物の可能性と生態を調査するゲノム設計図として機能する。

Tutorial

https://github.com/Hydro3639/nanophase/blob/main/Usage_tutorial.md

 

インストール

Github

mamba create -n nanophase python=3.8 -y 
conda activate nanophase
#conda; semibinでエラーがでることがあり、semibin導入前のv.2.2使用が推奨されている(ただしv0.2.2は現在登録されていない)
mamba install -c nanophase nanophase

> nanophase check #0.2.3

O.K

nanophase -h

nanophase v=0.2.3

 

Main modules

check check if all packages have been installed

meta                    genome assembly, binning, quality assessment and classification for metagenomic datasets

isolate genome assembly, binning, quality assessment and classification for bacterial isolates

 

Test modules

args Antibiotic Resistance Genes (ARGs) identification from reconstructed MAGs

plasmid Plasmid identification from reconstructed MAGs

 

Other options

-h | --help show the help message

-v | --version show nanophase version

 

example usage:

        nanophase check ## package availability checking

        nanophase meta -l ont.fastq.gz -t 16 -o nanophase-out ## meta::long reads only

        nanophase meta -l ont.fastq.gz --hybrid -1 sr_1.fastq.gz -2 sr_2.fastq.gz -t 16 -o nanophase-out ## meta::hybrid strategy

nanophase isolate -l ont.fastq.gz -t 16 -o nanophase-out ## isolate::long reads only

nanophase isolate -l ont.fastq.gz --hybrid -1 sr_1.fastq.gz -2 sr_2.fastq.gz -t 16 -o nanophase-out ## isolate::hybrid strategy

nanophase args -i Final-bins -x fasta -o nanophase.ARGs.summary.txt ## ARGs identification

nanophase plasmid -i Final-bins -x fasta -o nanophase.pls.summary.txt     ## Plasmids identification

 

 

> nanophase meta

$ nanophase meta

nanophase v=0.2.3

 

arguments:

--long_read_only only Nanopore long reads were involved [default: on]

--hybrid both short and long reads were required [Optional]

-l, --long Nanopore reads: fasta/q file that basecalled by Guppy 5+ or using 20+ chemistry was recommended if only Nanopore reads were included [Mandatory]

-1 Illumina short reads: fasta/q paired-end #1 file [Optional]

-2 Illumina short reads: fasta/q paired-end #2 file [Optional]

-m, --medaka_model medaka model used for medaka polishing [default: r1041_e82_400bps_sup_g615]

-e, --environment Build-in model of SemiBin [default: wastewater]; detail see: SemiBin single_easy_bin -h

-t, --threads number of threads that used for assembly and polishing [default: 16]

-o, --out output directory [default: ./nanophase-out]

-h, --help print help information and exit

-v, --version show version number and exit

 

output sub-folders:

        01-LongAssemblies       sub-folder containing information of Nanopore long-read assemblies (assembler: metaFlye)

        02-LongBins             sub-folder containing the initial bins with relatively low-accuracy quality

        03-Polishing            sub-folder containing polished bins

 

example usage:

        nanophase meta -l ont.fastq.gz -t 16 -o nanophase-out ## long reads only

        nanophase meta -l ont.fastq.gz --hybrid -1 sr_1.fastq.gz -2 sr_2.fastq.gz -t 16 -o nanophase-out ## hybrid strategy

 

 

> nanophase isolate 

$ nanophase isolate -h

nanophase v=0.2.3

 

arguments:

--long_read_only only Nanopore long reads were involved [default: on]

--hybrid both short and long reads were required [Optional]

--l, --long Nanopore reads with accuracy of >95% were recommended if only Nanopore reads were included [Mandatory]

-1 Illumina short reads: fasta/q paired-end #1 file [Optional]

-2 Illumina short reads: fasta/q paired-end #2 file [Optional]

-m, --medaka_model      medaka model used for medaka polishing [default: r941_min_sup_g507]

-t, --threads           number of threads that used for assembly and polishing [default: 16]

-o, --out               output directory [default: ./nanophase-out]

-h, --help              print help information and exit

-v, --version           show version number and exit

 

example usage:

        nanophase isolate -l ont.fastq.gz -t 16 -o nanophase-out ## long reads only

        nanophase isolate -l ont.fastq.gz --hybrid -1 sr_1.fastq.gz -2 sr_2.fastq.gz -t 16 -o nanophase-out ## hybrid strategy

 

 

データベース

GTDBとPLSDB(プラスミドデータベース)のDBをダウンロードして環境変数を設定する必要がある。すでにダウンロードしているなら環境変数のパスを通すだけでOK。

#自分の場合、condaで入れた2.1.0DBにパスを以下のように通した
export GTDBTK_DATA_PATH=/home/kazu/mambaforge/envs/gtdbtk/share/gtdbtk-2.1.0/db/

#PLSDBからFASTAを選んでダウンロードする。解凍後のサイズは3.6GB(2023/03)。
export PLSDB_PATH=<path>/<to>/plsdb.fna

 

 

 

テストラン

単離ゲノム(nanophase isolate)とメタゲノム(nanophase meta)用のモードがある。チュートリアルはメタゲノム向けに書かれている。ゲノムアセンブリ後、Binningを経てbinの分類と品質チェックが行われる。

 

チュートリアルの通り進める。テストデータをダウンロードする。

wget https://github.com/example-data/np-example/raw/main/np.test.tar && tar -xvf np.test.tar && rm -rf np.test.tar

150bpx2のペアエンドショートリードと平均3,626-bpのONTリードになっている。

 

1、アセンブルする。

#ONT only
nanophase meta -l lr.fa.gz -t 40 -o nanophase_ont

#hybrid
nanophase meta -l lr.fa.gz --hybrid -1 sr_1.fa.gz -2 sr_2.fa.gz -t 40 -o nanophase_hybrid

 

2、ARGを検出する。

nanophase args -i ont-nanophase-out/03-Polishing/Final-bins/ -x fasta -o nanophase.ARGs.summary.txt

MAGでARGが特定されていれば、nanophase.ARGs.summary.txtに結果がプリントされる。

 

バージョン0.2.3でのテストランはsemibinでエラーになった。手持ちのデータを使ったisolateモードのランはmedaka以外正常に終了した。

 

  • 最終的に再構成されたMAGは03-Polishing/Final-bin/に、再構成されたMAGの要約ファイルは03-Polishing/nanophase.hybrid.genome.summaryに格納されている(ハイブリッドの場合)。
  • ARGの検出ワークフローは現在まだアクティブな開発段階にある。結果はよく検討する必要がある。
  • 実際のMAG再構築ワークフローは論文のmethodで説明されています。確認してください。

引用

Nanopore long-read-only metagenomics enables complete and high-quality genome reconstruction from mock and complex metagenomes
Lei Liu 1, Yu Yang 1, Yu Deng 1, Tong Zhang

Microbiome. 2022 Dec 2;10(1):209