macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Reference-assisted assembly 2 RACA

 

 RACA

Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。

論文では、RACAを使いGAGEのゴールデンデータセットアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている。Tibetan antelopeの1,434のcontigをRACAで統合してウシゲノムと比較すると、60がクロモソームとマッチし、さらにそのうちの16はクロモソーム全体に渡ってマッチしたと書かれている。リファレンスが十分似ていれば、クロモソーム全体の再構成も不可能ではないようだ。 

 

ダウンロードリンク

::::: RACA Supplementary Website :::::

RACA source v0.9.1.1 (直リンク)をダウンロードした。このHPではGAGEのアセンブルデータもダウンロードできるようになっている。

 

インストール

makeするだけで終わる。

make

終わるとRun_RACA.plなどができる。

 

実行方法

ランはconfig.fileを元に行う。

Run_RACA.pl configuration file> 

 

テストデータをランしてみる。HPのTibetan antelope (TA) dataをダウンロードする。ダウンロードが終わったら解凍し、中に入る。

はじめにmakeしてparams.txtを作る。

cd TAdata/
make

params.txtができる。

以下のことが書かれていた。色々準備しておく必要があるみたいだ。

INSERTLIBFILE=/Volumes/3TB3/TAdata/insertsize_sd.txt  # File that has the lengths of insert libraries and their means and standard deviations estimated from read mapping.

INSERTSIZETHR=1000  #Insert library size threshold for the normal directions of two end reads

READMAPPINGDIR=/Volumes/3TB3/TAdata/TAreads  # Input directory that has the paired-end read mapping data

READMAPPINGLIB=/Volumes/3TB3/TAdata/readmapping_lib.txt #File that has the insert library name of each paired-end read mapping file in the $READMAPPING directory.

NCPUS=10 # The number of processes for parallel execution

SCFSIZEFILE=/Volumes/3TB3/TAdata/panHod2.size # Size of target scaffolds

SCFPREFIX=Scaffold # Prefix of target scaffold name

SCFSEQFILE=/Volumes/3TB3/TAdata/panHod2.fa #scaffold sequences

REFSPC=umd3 # Reference species

TARSPC=panHod2  # Target species

WINDOWSIZE=1000 #Window size for estimating paired-end read coverage

OUTPUTDIR=Out_RACA # Output directory

RESOLUTION=150000 # Block resolution (bp)

MIN_INTRACOV_PERC=5 # The minimum percentage in a null distribution of P_ia(i,j) scores  

IGNORE_ADJS_WO_READS=0

TREEFILE=/Volumes/3TB3/TAdata/tree.txt # Newick tree file

BENADJFILE=/Volumes/3TB3/TAdata/reliable_adjs.txt # Benchmark adjacency file

CONFIGSFSFILE=/Volumes/3TB3/TAdata/config.SFs # Config and make files for syntenic fragment construction

MAKESFSFILE=/Volumes/3TB3/TAdata/Makefile.SFs # Config and make files for syntenic fragment construction

 

 

READMEの説明では

2.1 Configuration file

 

RACA requires a single configuration file as a parameter. The configuration file has all parameters that are needed for RACA.

 Example dataset below has a sample configuration file 'params.txt' and all other parameter files which are self-explanatory (also refer to the data directory.)

Please read carefully the description of each configuration variable and modify them as needed.

とあるが、詳しく書かれていない。とりあえず変更ないままランする。テストデータにあるparams.txtを選択し、

Run_RACA.pl params.txt

 でジョブをスタートさせた。

 ランタイムが大変長いため、途中で止めた。

 

引用

Reference-assisted chromosome assembly

Jaebum Kima,b, Denis M. Larkinc, Qingle Caid, Asand, Yongfen Zhangd, Ri-Li Gee, Loretta Auvilf,g, Boris Capitanuf,g, Guojie Zhangd, Harris A. Lewina,h,, and Jian Maa,i

Proc Natl Acad Sci U S A. 2013 Jan 29;110(5):1785-90.