macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

動物ミトコンドリアゲノムのアセンブリとアノテーションのパイプライン MitoZ

 

 ハイスループットシーケンシング(HTS)技術の登場により、系統樹生物多様性のモニタリング研究において、大規模な核酸シーケンシングが日常的に行われる時代になってきている。例えば、複雑なDNA抽出物(環境DNA(eDNA)など)を利用したメタバーコーディング研究では、胃内容物、糞便、堆積物、土壌や水など、多様な種類のサンプルから同時に複数の分類群を同定することができる。ほとんどの場合、これらの研究では分解されたDNAを扱うため、分類学的同定のための短いバーコーディング断片が緊急に必要とされている。ミトコンドリアゲノム上の遺伝子は、細胞あたりのコピー数が多いため、シングルコピーの核内遺伝子よりもピックアップされる可能性が高いことから好まれている。無数の分類群のミトコンドリアゲノムへの迅速なアクセスは、第一に、最も豊富でよく構成された DNA バーコード COI と、eDNA で広く採用されている 12S rRNA、16S rRNA、CYTB などの短いマーカーとの間の重要な分類学的関連性を提供する。第二に、急速に台頭してきているアプローチであるミトゲノミクスを促進する。ミトコンドリアゲノムは、生物多様性モニタリングにおける重要性に加えて、母方の遺伝情報も記録しており、多様な系統間の系統関係を推測するために広く利用されている。

 ロングレンジPCRとプライマーウォーキング戦略とサンガージデオキシシーケンシングを用いて得られたミトコンドリアゲノムとは別に、HTSプラットフォームを用いたリファレンスベースの方法で得られたミトコンドリアゲノムもある。従来のゲノムアセンブルソフトウェア、例えばSOAPdenovo2、ALLPATHS-LG、Platanusは、非常に高いデプスの配列を放棄するようにプログラムされているため、完全なマイトゲノムをアセンブルすることはほとんどできない。頻繁に使用されている2つのマイトゲノムアセンブルソフトウェア、MITObimとNOVOPlastyは、ショートリードをアンカーし、初期データセットを構築するために、closely relatedなミトコンドリア断片を種子として必要とする。しかし、 closely relatedな種を定義するための適切な基準を設定することはしばしば困難である-例えば、適切な基準は、Linnaean系ではcongenericまたはcoordinalであるべきである。また、種間の類似性もまた、異なるグループ間で大きく異なっている。また、シーケンシングのコストが高騰しているにもかかわらず、どの種も完全なマイトゲノムを持っていない属もある(ref.28)。また、どちらのソフトウェアも最終的な出力としてはマイトゲノムアセンブリしか生成できない。したがって、ゲノムアノテーションには、DOGMA、MOSAS、MITOSのような別のソフトウェアが必要となる。また、前述の3つのアノテーションソフトウェアはいずれもWebページ版しか提供しておらず、複数のscaffoldsを用いたアセンブリにはほとんど対応していない。

 ここでは、HTS生データの読み取りからゲノムアセンブリアノテーション、可視化出力までをワンクリックで行うことができるミトコンドリアゲノムツールキットMitoZを紹介する。MitoZはPython3でプログラムされており、SOAPdenovo-Transの修正版のアセンブリモジュール、タンパク質コーディング遺伝子(PCG)のPerlベースのスクリプトアノテーションモジュール、tRNAのMiTFiとrRNAのinfernal-1.1.1で構成されている(論文図1)。NCBI RefSeqデータベースのサンガーシークエンシングにより得られたマイトゲノムと、NCBI Sequence Read Archive (SRA)データベースのショットガンペアエンドリードの両方を持つ哺乳類および節足動物のバッチを用いて、MitoZの精度と効率性を検証した。その結果、MitoZは被験試料のPCGとrRNA遺伝子の97.33%を回収でき、そのうち94.66%の遺伝子が完全長であり、回収された遺伝子はサンガーシークエンシングで得られたマイトゲノムと高い類似性(≧97%)を示した。

 

 

BWAを用いて、対応するサンガーマイトゲノムに生のリードを合わせることにより、各サンプルのミトコンドリア由来のリード(MDR)の比率を推定した。その結果、ほとんどのサンプルのMDR比は0.12%から0.51%の範囲であり、哺乳類の血液サンプルは0.01%から0.05%と有意に低いMDR比を有していることが示された(補足表S2)。また、MDR比がゼロの検体が6検体(哺乳類非血液検体3検体、哺乳類血液検体2検体、節足動物検体1検体)あり、これらの検体では、MDR比が0となっていた。これらのサンプルについては、データをdepositする前にわざとMDRを削除することが可能であったため、以下のサンプルから削除した。したがって、次の性能評価からそれらを除去した結果、最終的なデータセットのサンプルは、節足動物サンプル29個、哺乳類の非血液サンプル16個、哺乳類の血液サンプル5個の合計50個となった。種の選択とデータセットのダウンロードの手順の詳細については、補足表S3とS4を参照のこと。

MitoZは、生データの前処理、de novoアセンブリ、候補ミトコンドリア配列検索、ミトコンドリアゲノムアノテーション、可視化を含む複数のモジュールで構成されている(論文図1)。各モジュールは、ユーザーがワークフロー全体の一部だけのランを必要とする場合、独立して実行することができる。

 

インストール

condaで依存を導入する方法もあるが、ここではオーサーが準備しているdocker imageをpullしてテストした。

Githubより

  • Currently, the Singularity image for MitoZ v2.4-alpha was not built successfully. therefore, please use the Docker verion or installing from source by yourseff.

Github

#dockerhub (link)
docker pull guanliangmeng/mitoz:2.4-alpha

sudo docker run -v $PWD:/project --rm -it guanliangmeng/mitoz:2.4-alpha

> python3 /app/release_MitoZ_v2.4-alpha/MitoZ.py

# python3 /app/release_MitoZ_v2.4-alpha/MitoZ.py

usage: MitoZ [-h]

             {all,all2,filter,assemble,findmitoscaf,annotate,visualize} ...

 

Description

 

MitoZ - A toolkit for animal mitochondrial genome assembly,

annotation and visualization

 

Version

2.4

 

Citation

 

Guanliang Meng, Yiyuan Li, Chentao Yang, Shanlin Liu.

MitoZ: a toolkit for animal mitochondrial genome assembly,

annotation and visualization; doi: https://doi.org/10.1093/nar/gkz173

 

positional arguments:

  {all,all2,filter,assemble,findmitoscaf,annotate,visualize}

    all                 run filter, assemble and annotate

    all2                run assemble and annotate

    filter              filter raw reads

    assemble            do assembly from input fastq reads, output mitosequences.

    findmitoscaf        Search for mitochondrial sequences from assembly.

                        About 2-3 Gbp fastq data is needed to calculate the average

                        sequencing depth of each sequences, otherwise,

                        '--from_soaptrans' should be used.

    annotate            annotate PCGs, tRNA and rRNA genes.

    visualize           visualization of GenBank file

 

optional arguments:

  -h, --help            show this help message and exit

 

 

テストラン

git clone https://github.com/linzhi2013/MitoZ.git
cd MitoZ/test/

#run
sudo docker run -v $PWD:/project --rm guanliangmeng/mitoz:2.4-alpha \
python3 /app/release_MitoZ_v2.4-alpha/MitoZ.py all2 \
--genetic_code 5 \
--clade Arthropoda \
--insert_size 250 \
--thread_number 8 \
--fastq1 test.1.fq.gz \
--fastq2 test.2.fq.gz \
--outprefix test \
--fastq_read_length 125 \
1>m.log 2>m.err

8スレッド指定では10分以上かかる。 

出力

f:id:kazumaxneo:20200822014247p:plain

 

summary.txt

f:id:kazumaxneo:20200822014301p:plain

 

test.circos.svg

f:id:kazumaxneo:20200822014136p:plain

 出力についてはGithubで説明されています。確認して下さい。

 

メモ

  • Githubにはミトコンドリアゲノムのアセンブリには、約1.5~3Gの塩基対(bp)で十分との記載がある(動物マイトゲノムの話)。
  • MitoZはメモリー使用量が100GBほどと多いため、可能であればあらかじめ近縁種のマイトゲノム配列にBWAを使ってマッピングし、マッピングされたfastq配列を抽出するなどしてリード数を減らすことが推奨されている(*1)。

 

引用

MitoZ: a toolkit for animal mitochondrial genome assembly, annotation and visualization
Guanliang Meng, Yiyuan Li, Chentao Yang, Shanlin Liu
Nucleic Acids Research, Volume 47, Issue 11, 20 June 2019, Page e63

 

 

関連