MIRAを使って環状MAGを構築する Jorg - macでインフォマティクス

メタゲノミクスは、培養されていない微生物や複雑な微生物群集から得られる遺伝情報の研究を促進する。しかし、ほとんどのサンプルは生物の複雑性や株の多様性が高いため、メタゲノミクスデータから完全な微生物ゲノム（ミスアセンブリのない環状）をアセンブルすることは困難である。これまでにメタゲノミクスデータからアセンブルされた環状の細菌および古細菌のゲノムは、数千のデータセットがあるにもかかわらず、わずか63件しかない。環状化されたゲノムは、(1)将来のアセンブルの足場となるリファレンスコレクションの構築、(2)ゲノムの完全な遺伝子含有量の提供、(3)ゲノムの汚染がほとんどないことの確認、(4)遺伝子のゲノムコンテクストとシンテニーの研究、(5)16S rRNA遺伝子塩基配列研究における代謝推論を助けるためのタンパク質コード遺伝子とリボソーム RNA遺伝子の連結、などの点で重要である。著者らは、アセンブリ、ビニング、リードマッピングを繰り返し行うことで、環状化したゲノムを実現する方法を開発した。この方法では、k-merベースのアセンブリの潜在的なミスアセンブリを明らかにする。ここではCandidate Phyla Radiation (CPR)と呼ばれる種を選んだ（wiki）。これは、ゲノムが小さく、リボソーム RNA遺伝子のコピーが1つしかないことが知られているからである。公開されている19のデータセットから、34種類のCPRの環状ゲノム、1種類のMargulisbacteriaの環状ゲノム、2種類のメガファージの環状ゲノムを抽出した。その結果、大多数のCPRではリボソーム遺伝子がオペロンではない可能性が高いこと、いくつかのCPRではRNase P RNAが分岐した形で存在することなど、ゲノムを環状化しなければ難しいと思われる発見をした。

Githubより

インストール

mambaでpython3.9の環境を作ってテストした（ubuntu18.04使用）。

依存

MIRA
seqtk
BWA (optional)
LAST (optional)
Pilon (optional)
Infernal (optional)

Github

mamba create -n jorg python=3 -y
conda activate jorg
mamba install -c bioconda mira -y
mamba install -c bioconda bwa -y
mamba install -c bioconda seqtk -y
mamba install -c bioconda last -y
mamba install -c bioconda pilon -y
mamba install -c bioconda infernal -y

git clone https://github.com/lmlui/Jorg.git
cd Jorg/

> ./jorg

--------------------------------------------------------------------------

_ __ __ __ __

| | ___ _ __ __ _ / \ / \ / \ / \

___ _ | |/ _ \| '__/ _ |____________/ __\/ __\/ __\/ __\____________

___| |_| | (_) | | | (_| |___________/ /__/ /__/ /__/ /_______________

\___/ \___/|_| \__, | | / \ / \ / \ / \ \____

|___/ |/ \_/ \_/ \_/ \ o \

\_____/--<

Jorg - Circularization and improvement of metagenomic bins

Version: 1.0.0

Authors: Lauren Lui (lmlui@lbl.gov), Torben Nielsen, Adam Arkin

--------------------------------------------------------------------------

Usage: jorg -b bin.1.fa -r interleaved_reads.fastq.gz -k 33 -c 50 -i 5 --high_contig_num no

Usage: jorg -b bin.1.fa --forward reads_1.fastq.gz --reverse reads_2.fastq.gz -k 33 -c 50 -i 5 --high_contig_num no

-b, --bin_fasta_file Genome bin in fasta format.

-r, --reads_file Interleaved metagenome reads file in fastq or fastq.gz format.

--foward Forward reads file in fastq or fastq.gz format.

--reverse Reverse reads file in fastq or fastq.gz format.

-k, --kmer_length Kmer value for baiting (default: 33).

-c, --min_coverage Minimum coverage value (default: 50).

-i, --iterations Number of iterations (default: 5).

--high_contig_num Relevant only if input assembly has >2500 contigs: are you certain that this is a single genome worth running with Jorg? (default: no).

-v, --version Print version number and exit.

-h, --help Show this message.

Extended Usage: jorg --bin_fasta_file bin.1.fa --reads_file interleaved_reads.fastq.gz --kmer_length 33 --min_coverage 50 --iterations 5 --high_contig_num no

jorg --bin_fasta_file bin.1.fa --forward reads_1.fastq.gz --reverse reads_2.fastq.gz --kmer_length 33 --min_coverage 50 --iterations 5 --high_contig_num no

Please cite: Lui LM, Nielsen TN, Arkin AP. 2020, biorxiv (https://www.biorxiv.org/content/10.1101/2020.03.05.979740v2.full).

実行方法

１、circularizeさせるbinを選ぶ。成功率を上げるために、コンティグ数が10以下のビンを選ぶことが推奨されている。また、ビンの平均カバレッジが30倍以上であることも推奨されている (preprintの結果参照)。

２、Jorgスクリプトを使用して、mirabaitでリードをビンにマッピングすることを繰り返し、MIRAで再アセンブルする。MIRAは実行するためにconfigファイルを必要とするため、Jorgスクリプト実行前に、Jorg/Example/に含まれるmanifest_template.confをカレントにコピーしておく。

illuminaのfastqはマージして１つの配列にしておく必要がある。マージにはFLASH2やBBtoolsのbbmerge.shが利用できる。fastqは".fastq"または".fastq.gz"を認識する。

33はkmer値、bin.faはコンティグを含むfastaファイル、merged.fastq.gzはトリミングと品質チェックを行ったfastq、50は最小カバレッジ値、5は反復回数。

jorg -b bin.fa -r merged.fastq.gz -k 33 -c 50 -i 5 --high_contig_num no

Iterations/の中に各イテレーションのアセンブリが格納される。<binID>.out.fastaが最後のイテレーションのアセンブリになる。

環状化は1つのコンティグの両端に、正確なリピートが100nt以上の長さで存在すること、コンティグ内の他のリピートよりも長いこと、他のリピートと一致しないことを条件としている。ゲノム中のリピートの位置と長さを自動的に調べるには、circle_check_using_lastスクリプトを参照する（LASTが必要）。

出力やJorgスクリプトの流れについては論文とレポジトリのREADMEを確認して下さい。

引用

A method for achieving complete microbial genomes and better quality bins from metagenomics data

Lauren M. Lui, Torben N. Nielsen, Adam P. Arkin

bioRxiv, Posted March 07, 2020