macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

新規ミトコンドリアゲノムをショートリードから直接アセンブルする OGA

 

レポジトリより

 OGA(Organelle Genome Assembler)は、遠縁の生物種、あるいはオルガネラ遺伝子をリファレンスとして、オルガネラゲノムをアセンブルする。オルガネラゲノム(プラストーム)を組み立てるために、以下の4つのステップを実施する。(1)生のショートリードをcpリファレンスにマッピングする(オプションとして、マッピングされたmtリードを生リードから除去し、mtリードの影響を除く)、(2)マッピングされたcpリードをコンティグにアセンブルする、 (3) コンティグをseedとして生リードからオーバーラップリードを採用し(オプションは、マッピングしたmtリードを除去した生リード)、採用したオーバーラップリードを新しいSeedとして、オーバーラップリードを採用しなくなるまでこの手順を繰り返す、 (4) マップと採用リードをscaffoldsに2回アセンブルする、。最終的には、シーケンスカバレッジが十分高ければ、完全なプラストーム(MTゲノム)を得ることができる。このパイプラインは、濃縮葉緑体DNAや全ゲノムDNAからオルガネラゲノムをアセンブルするのに適用できる。
 

 

インストール

Github

#conda(link)
mamba install -c bioconda -y bowtie2
mamba install -c bioconda -y bandage
mamba install -c bioconda -y spades=3.13
mamba install -c bioconda -y blast

#本体
git clone https://github.com/quxiaojian/OGA.git
cd OGA/scripts/
export PATH=$PATH:$PWD

> OGA.pl

Usage:

        OGA.pl -i -t -c -m -p -e -k -w -s

        Copyright (C) 2019 Xiao-Jian Qu

        Please contact me <quxiaojian@sdnu.edu.cn>, if you have any bugs or questions.

 

        [-h -help]           help information.

        [-i -indir]          (default: reads) input directory containing subdirectories with paired-end reads.

        [-t -threads]        (default: 8) bowtie mapping threads.

        [-c -cpref]          (default: cp) indexed cp reference.

        [-m -mtref]          (default: mt) indexed mt reference.

        [-p -organelle]      (default: cp) cp or mt that you want to assemble.

        [-e -exclude]        (default: y) y or n, exclude the influence of mt/cp reads on assembling cp/mt respectively.

        [-k -kmer]           (default: 81,101,121) kmer value.

        [-w -wordsize]       (default: 121) wordsize value or specifically overlap value between two reads.

        [-s -stepnumber]     (default: 3) step number of wordsize saved into memory.

 

 

テストラン

#1 indexing
cd OGA/test/reference/
bowtie2-build cp.fasta cp
bowtie2-build mt.fasta mt
cd ../../

#2 run
OGA.pl -i test/reads/ -t 8 -c test/reference/cp -m test/reference/mt -p cp -e y -k 81,101,121 -w 121 -s 3
  • -t    (default: 8) bowtie mapping threads.
  • -c     (default: cp) indexed cp reference.
  • -m   (default: mt) indexed mt reference.
  • -p    (default: cp) cp or mt that you want to assemble.
  • -e    (default: y) y or n, exclude the influence of mt/cp reads on assembling cp/mt respectively.
  • -k    (default: 81,101,121) kmer value.
  • -w    (default: 121) wordsize value or specifically overlap value between
  • -s     (default: 3) step number of wordsize saved into memory.

結果は生リードのパスに書き出されるspadesディレクトリとなる。

 

  • ショートリードファイル名は xxx_1.fq と xxx_2.fq あるいは xxx_1.fq.gz と xxx_2.fq.gzとなっている必要がある。
  • wordsize値(-w)の最適な値は、リード長(ペアエンドリード、150 bp)の80% (-w 121)程度である。リードの品質が低い場合は、この値を少し小さくする (-w 101)。
  • wordizeのステップ数(-s)も任意に設定できる。リードの品質が低い場合は、この値を少し大きくする(-s 5)。
  • スクリプトは、マッピングアセンブリのステップではMITObimと同じだが、拡張のステップが異なる。MITObimはリードのマッピングを使用して伸長するので、時間がかかる。OGAでは、コンティグ端とraw readsのオーバーラップからreads recruitmentを行い、reads mappingより高速に伸長する。

 

引用

GitHub - quxiaojian/OGA: Organelle Genome Assembler

 

関連