Pacbioのロングリードのエラーコレクションツール pbdagcon

　イルミナなどの第2世代シーケンシング（2GS）プラットフォームは、ゲノムシークエンシングコストを劇的に削減しながら、スループットを飛躍的に向上させた（Shendure and Ji 2008）。 2GSプラットフォームの比較的低コストで大規模なスループットは、数千もの種のゲノムのシーケンシング、mおよび新たなアセンブリのための道を切り開いた（Alkan et al、2011）。

（一部略）ショートリードでは、リピートDNA配列は各リード長よりもはるかに長いことが多いため、de novoアセンブリは本質的に困難な計算上の問題である（Ukkonen 1992）。例えば、リピートDNA配列は誤ってアセンブリされ断片化された領域の数を増加させることがあるので、ショートリードのde novoアセンブリは配列情報の20％まで失われる可能性があると推定されている（Schatz et al。2010 link; Alkan et al。2011 link; Ukkonen 1992）。デノボアセンブリプロセスにおけるリピート DNA問題を軽減する１つの方法は、非常に長いインサート（>2kbp）を有する第２セットのメイトペアライブラリを組み込むことであった（Li et al、2010； Chaison et al、2009；Simpsonet al、2009； Alkan et al、2011； Butler et al、2008）。メイトペアライブラリーはリピートを解消し（Treangen and Salzberg 2012; Wetzel et al。2011）、scaffoldingを改善することができるが（van Heesch et al。2013）、ペアエンドのコンタミネーションとインサートサイズの誤推定もミスアセンブリを招く（Phillippy et al、 2008 link; Sahlin et al、2016 link）。

　最近では、Pacific Biosciences（PacBio）のSMRTシークエンスや、Oxford NanoporeのMinIONシーケンス（現在、はるかに長い最大54 kbpのリード長（論文執筆時点））などの第3世代（3GS）1分子シークエンシングテクノロジーは、2GS de novo assemblyのいくつかの欠点を克服することができる（Berlin et al、2015）。ロングリードシーケンシング技術は82.1％（Chin et al、2011）から84.6％の精度（Rasko et al、2011）の範囲の高いエラー率でリードを生成するが、シーケンシングエラーはロングリード全体でランダムな位置で起こる（Chin et al。2013）。2GSのショートリードデータ（Koren et al、2012）または過剰な3GS readを使用するセルフエラーコレクションでエラーは補正できる（Chin et al、2013）。

　本論文では、進化論的観点から特によく研究されているショウジョウバエDrosophila serrataのゲノムを新規にアセンブリするために、PacBioロングリードシークエンシングを使用する。 D. serrataはD. monlanumサブグループのメンバーであり、これはD. melanogasterサブグループ〜40MYAから分かれており（Tamura et al、2004）、推定98種からなる（Brake andBächli、2008）。現在のところ、この種が豊富なサブグループからは、1つのドラフトゲノムアセンブリ（D. kikkawai）しか入手できない（Chen et al

、2014）。 D. serrataは、パプアニューギニアからオーストラリア南東部までの幅広い地理的分布を持ち、種の境界の進化などの進化の問題（Blows and Hoffman 1993; Hallas et al。2002; Magiafoglou et al、 2002）および気候適応（Frentiu and Chenoweth 2010; Latimer et al。2011; Kellermann et al。2009）に対処するための強力なモデルとして浮上している。

（一段落略）

　進化的研究のためのモデルとしてのD. serrataの重要性にもかかわらず、そのゲノムについての我々の不十分な理解は依然として重大な制限である。染色体の連鎖地図および物理地図が利用可能であり（Stocker et al、2012）、発現配列タグ（EST）ライブラリーが開発されている（Frentiu et al、2009）が、この種はドラフトゲノムを欠いている。ここでは、もっぱらPacBio SMRT技術を使用してD. serrataゲノムのシーケンシングおよびアセンブリを報告する。経験的なRNA seqデータによって裏付けられたin silco遺伝子予測因子に基づくゲノムの最初のアノテーションも提供する。我々（著者ら）のde novoゲノム配列とそのアノテーション情報は、この種の進行中の集団ゲノムと形質マッピング研究のためのリソースを提供するだけでなく、ショウジョウバエ科のゲノム進化のより広範な研究を促進する。

pbdagconに関するツイート

インストール

ubuntu14.04、miniconda3-4.0.5環境でテストした。

依存

blasr (optional)

The code now depends on C++11 features, in particular std::thread, std::move. GCC 4.8.1 or higher is known to work.

本体 Github

#Anacondaを使っているならcondaで導入可
conda install -c bioconda -y pbdagcon

#blasrもないなら入れておく
conda install -c bioconda -y blasr

> pbdagcon

$ pbdagcon --help

USAGE:

pbdagcon [-v] [-a] [-t <uint>] [-m <uint>] [-c <uint>] [-j <int>] [--]

[--version] [-h] <either file path or stdin>

Where:

-v, --verbose

Turns on verbose logging

-a, --align

Align sequences before adding to consensus

-t <uint>, --trim <uint>

Trim alignments on either size

-m <uint>, --min-length <uint>

Minimum length for correction

-c <uint>, --min-coverage <uint>

Minimum coverage for correction

-j <int>, --threads <int>

Number of consensus threads

--, --ignore_rest

Ignores the rest of the labeled arguments following this flag.

--version

Displays version information and exits.

-h, --help

Displays usage information and exits.

(required) Input data

PBI consensus module

実行方法

２、blasrを使い、リファレンスまたはアセンブリして得たdcontig配列にロングリードをマッピングする。

blasr queries.fasta target.fasta --bestn 1 -m 5 --out mapped.m5
pbdagcon mapped.m5 > consensus.fasta

コンセンサス配列を出力するには、blasrによるアライメント結果を使用する

pbdagcon mapped.m5 > consensus.fasta

引用
Single-Molecule Sequencing of the Drosophila serrata Genome
Scott L. Allen,* Emily K. Delaney,† Artyom Kopp,† and Stephen F. Chenoweth

G3 (Bethesda). 2017 Mar; 7(3): 781–788. Published online 2017 Jan 30

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Pacbioのロングリードのエラーコレクションツール pbdagcon