レポジトリより
OGA(Organelle Genome Assembler)は、遠縁の生物種、あるいはオルガネラ遺伝子をリファレンスとして、オルガネラゲノムをアセンブルする。オルガネラゲノム(プラストーム)を組み立てるために、以下の4つのステップを実施する。(1)生のショートリードをcpリファレンスにマッピングする(オプションとして、マッピングされたmtリードを生リードから除去し、mtリードの影響を除く)、(2)マッピングされたcpリードをコンティグにアセンブルする、 (3) コンティグをseedとして生リードからオーバーラップリードを採用し(オプションは、マッピングしたmtリードを除去した生リード)、採用したオーバーラップリードを新しいSeedとして、オーバーラップリードを採用しなくなるまでこの手順を繰り返す、 (4) マップと採用リードをscaffoldsに2回アセンブルする、。最終的には、シーケンスカバレッジが十分高ければ、完全なプラストーム(MTゲノム)を得ることができる。このパイプラインは、濃縮葉緑体DNAや全ゲノムDNAからオルガネラゲノムをアセンブルするのに適用できる。
インストール
#conda(link)
mamba install -c bioconda -y bowtie2
mamba install -c bioconda -y bandage
mamba install -c bioconda -y spades=3.13
mamba install -c bioconda -y blast
#本体
git clone https://github.com/quxiaojian/OGA.git
cd OGA/scripts/
export PATH=$PATH:$PWD
> OGA.pl
Usage:
OGA.pl -i -t -c -m -p -e -k -w -s
Copyright (C) 2019 Xiao-Jian Qu
Please contact me <quxiaojian@sdnu.edu.cn>, if you have any bugs or questions.
[-h -help] help information.
[-i -indir] (default: reads) input directory containing subdirectories with paired-end reads.
[-t -threads] (default: 8) bowtie mapping threads.
[-c -cpref] (default: cp) indexed cp reference.
[-m -mtref] (default: mt) indexed mt reference.
[-p -organelle] (default: cp) cp or mt that you want to assemble.
[-e -exclude] (default: y) y or n, exclude the influence of mt/cp reads on assembling cp/mt respectively.
[-k -kmer] (default: 81,101,121) kmer value.
[-w -wordsize] (default: 121) wordsize value or specifically overlap value between two reads.
[-s -stepnumber] (default: 3) step number of wordsize saved into memory.
テストラン
#1 indexing
cd OGA/test/reference/
bowtie2-build cp.fasta cp
bowtie2-build mt.fasta mt
cd ../../
#2 run
OGA.pl -i test/reads/ -t 8 -c test/reference/cp -m test/reference/mt -p cp -e y -k 81,101,121 -w 121 -s 3
- -t (default: 8) bowtie mapping threads.
- -c (default: cp) indexed cp reference.
- -m (default: mt) indexed mt reference.
- -p (default: cp) cp or mt that you want to assemble.
- -e (default: y) y or n, exclude the influence of mt/cp reads on assembling cp/mt respectively.
- -k (default: 81,101,121) kmer value.
- -w (default: 121) wordsize value or specifically overlap value between
- -s (default: 3) step number of wordsize saved into memory.
結果は生リードのパスに書き出されるspadesディレクトリとなる。
- ショートリードファイル名は xxx_1.fq と xxx_2.fq あるいは xxx_1.fq.gz と xxx_2.fq.gzとなっている必要がある。
- wordsize値(-w)の最適な値は、リード長(ペアエンドリード、150 bp)の80% (-w 121)程度である。リードの品質が低い場合は、この値を少し小さくする (-w 101)。
- wordizeのステップ数(-s)も任意に設定できる。リードの品質が低い場合は、この値を少し大きくする(-s 5)。
- 本スクリプトは、マッピング、アセンブリのステップではMITObimと同じだが、拡張のステップが異なる。MITObimはリードのマッピングを使用して伸長するので、時間がかかる。OGAでは、コンティグ端とraw readsのオーバーラップからreads recruitmentを行い、reads mappingより高速に伸長する。
引用
GitHub - quxiaojian/OGA: Organelle Genome Assembler
関連