OLCのメタゲノムアセンブラ BBAP - macでインフォマティクス

　メタゲノムアセンブリの精度は、通常、シークエンシングおよびアセンブリの際に、同じゲノム領域からの発散性のあるリードが異なる遺伝子座として認識されるため、高レベルの多型によって損なわれる。ウイルス準種（viral quasispecies）とは、単一のキャリアに見られる豊富で多様な遺伝学的に関連したウイルスのグループである。VelvetやSOAPdenovoのような現在の主流のアセンブル方法は、もともとこのようなメタゲノムデータのアセンブルを意図したものではないため、メタゲノムデータの正確で有益なアセンブル結果を提供するための新しい方法が求められている。
　本研究では、 partial de novo-reference assembly (PDR) 戦略とBLAST-based assembly pipeline (BBAP) を組み合わせたハイブリッドな多相性データ収集法を提案する。PDR戦略は、ランダムに抽出された部分的なデータセットをde novoアセンブリすることでin situリファレンス配列を生成し、その後、全データセットのリファレンスアセンブリに使用する。BBAPは、多型リードをアセンブルするために greedy algorithmを採用している。PDRとBBAPの両方の性能を評価し、比較するために、以前の研究から12のB型肝炎ウイルス準種NGSデータセットを使用した。解析の結果、メタゲノムデータセットの高多型は、断片化されたde novoアセンブリにつながることが示唆された。一方、外部リファレンス配列の偏ったまたは限定された表現は、アセンブリの精度とバリエーション感度を低下させ、これはアセンブリに含まれるリードの数が少ないことを示している。一方、PDRで生成されたin situリファレンス配列は、フルメタゲノミクスデータセットのPDRアセンブリでより多くのリードがアセンブルされ、より高い精度と高いバリエーション感度が得られた。BBAPアセンブリの結果は、他のアセンブリ方法と比較してアセンブリの効率と精度が高いことも示唆している。さらに、BBAPアセンブリは、他の方法のアセンブリ結果では観察されなかったHBVの構造バリアントを回収した。これらの結果から、PDR/BBAPのアセンブリ結果は、他の比較法と比較して有意に優れていた。
　PDRとBBAPの両方が独立して、高度に多型化されたデータのアセンブリ効率と精度を向上させ、一緒に使用するとアセンブリ性能がさらに向上した。BBAPはまた、ヌクレオチド頻度情報も提供する。PDRとBBAPを併用することで、メタゲノムデータ研究のための強力なツールを提供する。

manual (PDF)

http://homepage.ntu.edu.tw/~youylin/BBAP_Manual.pdf

インストール

依存

legacy blast

#仮想環境に導入(bioconda)
conda create -n blast-legacy -y
conda activate blast-legacy
conda install -c bioconda blast-legacy -y

http://homepage.ntu.edu.tw/~youylin/BBAP.html

e$ perl -w QC_SB_AC_masterPipeline.pl

====START OF QC_SB_AC pipeline====

-p directory for QC SB AC perl scripts

-F sequence format: 1 --> fastq file Illumina 1.3+ 2 --> fasta file 3 --> unique fasta file

-o output heading

-O output directory heading (give directory path)

====QUALITY CONTROL AND UNIQUE SEQUENCE====

====QC_0_quality_control_unique_pipeline.pl====

====QC_1_quality_control_fragment.pl====

-f fastq file Illumina 1.3+ or fasta file

-q quality threshold (default = 20, fastq only)

-Q 33 for Illumina 1.8+, 64 for Illumina 1.3+ (default = 33, fastq only)

-A trim ? bp from start (default = 0; for barcode, fastq only)

-B trim ? bp from end (default = 0; fastq only)

trim is after quality filtering in workflow (whole sequence is subject to quality filtering)

====QC_2_fasta_unique.pl====

-r view reverse complement sequence as identical sequence, 1 -> yes, 2 -> no (default = 2)

====QC_3_fasta_countFilter.pl====

-c minimum number of sequences per unique sequence (default = 1)

====SELFBLAST AND CLUSTERING====

====SB_0_selfblast_cluster_pipeline.pl====

====SB_1_selfblast.pl====

-e e for blast (default = 1e-5)

-b directory for formatdb and blastall

-a number of CPUs to run for blast (defaule = 1)

====SB_2_cluster.pl====

-i identity threshold (default = 85, for clustering)

-l length threshold (default = 85% of read length, for clustering)

====SB_3_cluster_stat_sort.pl====

-C count per cluster threshold (default = 1)

====SB_4_cluster_getfasta.pl====

Died at ../QC_SB_AC_masterPipeline.pl line 97.

テストラン

cd /BBAP/Example/
perl -w ../QC_SB_AC_masterPipeline.pl -p ../../BBAP/ -F 1 \
 -o DenovoExample1 -O ./DenovoExample1 \
 -f Example_NGSdataset.fastq \
 -b <your>/<blast>/<direcotry>

出力

f:id:kazumaxneo:20200716000634p:plain

引用

De novo assembly of highly polymorphic metagenomic data using in situ generated reference sequences and a novel BLAST-based assembly pipeline

You-Yu Lin, Chia-Hung Hsieh, Jiun-Hong Chen, Xuemei Lu, Jia-Horng Kao, Pei-Jer Chen, Ding-Shinn Chen & Hurng-Yi Wang
BMC Bioinformatics volume 18, Article number: 223 (2017)