Pacbioのロングリードのシミュレータ PaSS - macでインフォマティクス

　PacBioやSMRT（1分子リアルタイム）シーケンスやナノポアシーケンスを含む第3世代のシーケンス技術は、これまでにないシーケンスリード長をゲノムを研究する研究者に提供し、ゲノミクス研究に革命をもたらしている[ref.1]。 Pacific BioSciencesが開発したSMRTシーケンシングは、最も広く使用されている第3世代のシーケンシングテクノロジーの1つである[ref.2]。

　シーケンスアラインメントプログラムBLASR [ref.3]およびGraphMap [ref.4]、ゲノムアセンブリプログラムcanu [ref.5]およびminiasm [ref.6]、構造バリアントコーラーPBHoney [ref.7]およびSniffles [ref.8]など、バイオインフォマティクスツールおよびアルゴリズムはますます増えている。さらに、PacBioシーケンスは複数のバージョンで迅速に開発された。（一部略）

　PacBioリードの特性は、第2世代のシーケンスリードの特性とはまったく異なる。約10〜15 kbのリードを生成できる。これは、既存の第2世代のシーケンス方法よりもはるかに長い。長いリードによりゲノム上でリードのマッピング位置をより正確に決定できるため、大きな構造変化がリピートまたは複雑な領域にまたがる場合に役立つ。したがって、長いリードは、repetitive領域および大きな構造変異の分析において優位性を示す。対照的に、第2世代のシーケンシングでは、アセンブルやギャップが発生する可能性がある。ただし、ベースごとのエラー率は、第2世代のシーケンステクノロジの1％に比べて約15％になる可能性があり、indelエラーが支配的である[ref.11]。それにもかかわらず、一分子の環状シーケンスまたはマルチパスシーケンスにより、高いエラー率を緩和することができる。シーケンシングプロセスでは、環状テンプレートを使用して、標的分子の順方向鎖と逆方向鎖を複数回シーケンスすることができる[ref.12]。polymerase readと呼ばれる出力配列は、subreadsと呼ばれる複数のリードに分割できる。これらのsubreadsのコンセンサスを生成することにより、最終出力シーケンシングのリードクオリティを向上させることができる。スループットはまだ低いが、最新のシーケンサーSequelは、古いシーケンサーPacBio RSIIよりも7倍から10倍多くのシーケンスを生成できる。実行ごとに5〜10Gbの約365 k〜500 kのリードを生成できる[ref.13]。さらに、NGSメソッドと比較して、PacBioシーケンスは高速で、GCバイアスがない[ref,14]。

　現在、PBSIM [ref.15]、LongISLND [ref.16]、NPBSS [ref.17]など、PacBioのリードをシミュレートするためのツールがいくつか存在する。これらのシミュレータはすべてリード長の分布を推定できるが、PacBioプラットフォームのマルチパスシーケンスを考慮するのはLongISLNDのみである。 PBSIMは、モデルベースまたはサンプリングベースの方法を使用してリードをシミュレートできる。ただし、PBSIMのリード長の分布は、現在のデータとは一致しない。 LongISLNDは、ホモポリマー依存のバイアスに対処するために、拡張kmerと呼ばれるシーケンスコンテキスト依存メソッドを採用しており、複数のファイル形式で出力できる。 NPBSSは、シミュレーションに長い時間がかかりるものの、実際のエラー率とクオリティ値（QV）の関係を使用できる。最新のシーケンサーSequelのシーケンスでは、固定クオリティ値（QV）が使用されたため、QVは実際のエラー率を表さないのに対して、PBSIMおよびNPBSSのシーケンスエラーのシミュレーション方法はQVに基づいている。さらに、LongISLNDはSequelデータのファイル形式を処理できない。とりわけ、これらの3つのシミュレーターは、アラインメント結果からのアラインメントされた領域のみに基づいてシーケンスエラーモデルを構築したため、シーケンスエラー、特に品質の低い領域に関する情報が欠落していた。

　シーケンス技術の革新をキャッチし、既存の方法を改善するために、新しいPacBioシーケンスシミュレータPaSSを提案する。 PaSSは、実際のPacBioデータからカスタマイズされたシーケンスパターンモデルを生成し、カスタマイズされたまたは経験的なシーケンスモデルを使用して、入力リファレンスゲノムのsubreadsを生成できる。最後に、PaSSといくつかの一般的な既存のシミュレーターを比較する。結果とアセンブリテストは、PaSSがPacBioリードを高い忠実度でシミュレートできることを示している。

インストール

依存

Linux operation system, memory 1G or up; Perl and gcc is needed.

HPからダウンロードする。

http://cgm.sjtu.edu.cn/PaSS/

wget http://cgm.sjtu.edu.cn/PaSS/src/PaSS.tar.gz
tar xzvf PaSS.tar.gz
cd PaSS/
gcc -lm -lpthread PaSS.c -o PaSS

> ./PaSS

$ ./PaSS

This is a sequencing simulator for PacBio sequencing: PaSS.

PaSS can be helpful to evaluate or develop tools for PacBio sequencing.

Usage: ./PaSS [options]

[options]:

-list <input_file> percentage.txt

-index <index_file> index

-m <sequencing_method> 'pacbio_RS' or 'pacbio_sequel'.

-c <error_model_file> error model file. e.g. 'sim.config'.

-r <reads_number> number of reads to generate.

-t <threads_number> number of threads to use.default is 1.

-o <output_file> output file.

-d If '-d' is set, the ground truth of simulation will output concurrently.

テストラン

１、シミュレートするゲノム配列のindexファイル作成

perl pacbio_mkindex.pl E.coli/ecoli_ref.fa ./

カレントに indexとpercentage.txtができる。

２、 indexとpercentage.txt、エラーモデルファイルsim.configを指定する。シーケンシングマシンはRSかsequelを選ぶ。

./PaSS -list percentage.txt -index index -m pacbio_RS -c sim.config -r 1000 -t 4 -o out

-list percentage.txt
-index index file
-m pacbio_RS or pacbio_sequel, the sequencer that can choose
-c the profile that generated in the error model stage. sim.config is the profile of the example dataset. There are three profiles prepared for E.coli,C.elegan and A.thaliana respecti
-r number of reads to simulate
-t number of threads to use, default is 1.
-o name of output file
-d If '-d' is set, the ground truth of simulation will output concurrently.