RACA
Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。
論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている。Tibetan antelopeの1,434のcontigをRACAで統合してウシゲノムと比較すると、60がクロモソームとマッチし、さらにそのうちの16はクロモソーム全体に渡ってマッチしたと書かれている。リファレンスが十分似ていれば、クロモソーム全体の再構成も不可能ではないようだ。
ダウンロードリンク
::::: RACA Supplementary Website :::::
RACA source v0.9.1.1 (直リンク)をダウンロードした。このHPではGAGEのアセンブルデータもダウンロードできるようになっている。
インストール
makeするだけで終わる。
make
終わるとRun_RACA.plなどができる。
実行方法
ランはconfig.fileを元に行う。
Run_RACA.pl configuration file>
テストデータをランしてみる。HPのTibetan antelope (TA) dataをダウンロードする。ダウンロードが終わったら解凍し、中に入る。
はじめにmakeしてparams.txtを作る。
cd TAdata/
make
params.txtができる。
以下のことが書かれていた。色々準備しておく必要があるみたいだ。
INSERTLIBFILE=/Volumes/3TB3/TAdata/insertsize_sd.txt # File that has the lengths of insert libraries and their means and standard deviations estimated from read mapping.
INSERTSIZETHR=1000 #Insert library size threshold for the normal directions of two end reads
READMAPPINGDIR=/Volumes/3TB3/TAdata/TAreads # Input directory that has the paired-end read mapping data
READMAPPINGLIB=/Volumes/3TB3/TAdata/readmapping_lib.txt #File that has the insert library name of each paired-end read mapping file in the $READMAPPING directory.
NCPUS=10 # The number of processes for parallel execution
SCFSIZEFILE=/Volumes/3TB3/TAdata/panHod2.size # Size of target scaffolds
SCFPREFIX=Scaffold # Prefix of target scaffold name
SCFSEQFILE=/Volumes/3TB3/TAdata/panHod2.fa #scaffold sequences
REFSPC=umd3 # Reference species
TARSPC=panHod2 # Target species
WINDOWSIZE=1000 #Window size for estimating paired-end read coverage
OUTPUTDIR=Out_RACA # Output directory
RESOLUTION=150000 # Block resolution (bp)
MIN_INTRACOV_PERC=5 # The minimum percentage in a null distribution of P_ia(i,j) scores
IGNORE_ADJS_WO_READS=0
TREEFILE=/Volumes/3TB3/TAdata/tree.txt # Newick tree file
BENADJFILE=/Volumes/3TB3/TAdata/reliable_adjs.txt # Benchmark adjacency file
CONFIGSFSFILE=/Volumes/3TB3/TAdata/config.SFs # Config and make files for syntenic fragment construction
MAKESFSFILE=/Volumes/3TB3/TAdata/Makefile.SFs # Config and make files for syntenic fragment construction
READMEの説明では
2.1 Configuration file
RACA requires a single configuration file as a parameter. The configuration file has all parameters that are needed for RACA.
Example dataset below has a sample configuration file 'params.txt' and all other parameter files which are self-explanatory (also refer to the data directory.)
Please read carefully the description of each configuration variable and modify them as needed.
とあるが、詳しく書かれていない。とりあえず変更ないままランする。テストデータにあるparams.txtを選択し、
Run_RACA.pl params.txt
でジョブをスタートさせた。
ランタイムが大変長いため、途中で止めた。
引用
Reference-assisted chromosome assembly
Jaebum Kima,b, Denis M. Larkinc, Qingle Caid, Asand, Yongfen Zhangd, Ri-Li Gee, Loretta Auvilf,g, Boris Capitanuf,g, Guojie Zhangd, Harris A. Lewina,h,, and Jian Maa,i
Proc Natl Acad Sci U S A. 2013 Jan 29;110(5):1785-90.