macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

CAP3

備忘録を兼ねて紹介します。論文はこれまで5000回以上引用されています。

 

 CAPシーケンスアセンブリプログラムの第3世代について説明する。 CAP3プログラムには多くの改良と新機能が含まれている。 プログラムは、5 'および3'の低品質のリード領域を切り取る能力を有する。 それは、リード間の重複の計算、リードのマルチプルシーケンスアラインメントの構築、およびコンセンサス配列の生成においてbase quality valuesを使用する。 プログラムはまた、フォワード - リバース制約を使用してアセンブリエラーとリンクコンティグを修正する。 論文では4つのBACデータセットに対するCAP3の結果が示されている。 CAP3のパフォーマンスは、多数のBACデータセットについてPHRAPのパフォーマンスと比較された。 PHRAPはしばしばCAP3よりも長いコンティグを生成するが、CAP3はしばしばPHRAPよりもコンセンサス配列のエラーが少ない。 順方向と逆方向の制約があるローパスデータに対してPHRAPを使用するよりもCAP3を使用してscaffoldsを作成する方が簡単である。

 

f:id:kazumaxneo:20190612125148j:plain

Major steps of the assembly algorithm. 論文より転載。

 

インストール

mac os10.12のminiconda2-4.0.5環境でテストした。

 

#bioconda (link)
conda install -c bioconda -y cap3

>cap3

$ cap3

VersionDate: 12/21/07  Size of long: 8

Usage: cap3 File_of_reads [options]

 

File_of_reads is a file of DNA reads in FASTA format

 

If the file of reads is named 'xyz', then

the file of quality values must be named 'xyz.qual',

and the file of constraints named 'xyz.con'.

Options (default values):

  -a  N  specify band expansion size N > 10 (20)

  -b  N  specify base quality cutoff for differences N > 15 (20)

  -c  N  specify base quality cutoff for clipping N > 5 (12)

  -d  N  specify max qscore sum at differences N > 20 (200)

  -e  N  specify clearance between no. of diff N > 10 (30)

  -f  N  specify max gap length in any overlap N > 1 (20)

  -g  N  specify gap penalty factor N > 0 (6)

  -h  N  specify max overhang percent length N > 2 (20)

  -i  N  specify segment pair score cutoff N > 20 (40)

  -j  N  specify chain score cutoff N > 30 (80)

  -k  N  specify end clipping flag N >= 0 (1)

  -m  N  specify match score factor N > 0 (2)

  -n  N  specify mismatch score factor N < 0 (-5)

  -o  N  specify overlap length cutoff > 15 (40)

  -p  N  specify overlap percent identity cutoff N > 65 (90)

  -r  N  specify reverse orientation value N >= 0 (1)

  -s  N  specify overlap similarity score cutoff N > 250 (900)

  -t  N  specify max number of word matches N > 30 (300)

  -u  N  specify min number of constraints for correction N > 0 (3)

  -v  N  specify min number of constraints for linking N > 0 (2)

  -w  N  specify file name for clipping information (none)

  -x  N  specify prefix string for output file names (cap)

  -y  N  specify clipping range N > 5 (100)

  -z  N  specify min no. of good reads at clip pos N > 0 (3)

 

 

実行方法

シーケンスのFASTAファイルを指定する。

cap3 sequence.fasta

複数ファイルできますが、~contigsがマルチプルアラインメントされてコンセンサス配列として繋げられた配列になります。

 

オンラインでも使用できます (no more than 50 kb)。

http://doua.prabi.fr/software/cap3

 

complementaryも考慮して繋げます。ただしjnput配列が長すぎると失敗します。

(Assembly of sequences of length >= 30 kb)

詳細はここからターボールをダウンロードしてdoc.txtを確認して下さい。

引用

CAP3: A DNA Sequence Assembly Program
Xiaoqiu Huang, Anup Madan

Genome Res. 1999 Sep; 9(9): 868–877.

参考

アセンブルプログラム cap3: インストールと実行

https://ultrabem-branch3.com/informatics/bioinformatics/cap3.html