macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Reference-assisted assembly 2 RACA

 

 RACA

Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。

論文では、RACAを使いGAGEのゴールデンデータセットアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている。Tibetan antelopeの1,434のcontigをRACAで統合してウシゲノムと比較すると、60がクロモソームとマッチし、さらにそのうちの16はクロモソーム全体に渡ってマッチしたと書かれている。リファレンスが十分似ていれば、クロモソーム全体の再構成も不可能ではないようだ。 

 

ダウンロードリンク

::::: RACA Supplementary Website :::::

RACA source v0.9.1.1 (直リンク)をダウンロードした。このHPではGAGEのアセンブルデータもダウンロードできるようになっている。

 

インストー

makeするだけで終わる。

make

終わるとRun_RACA.plなどができる。

 

ラン

ランはconfig.fileを元に行う。

Run_RACA.pl configuration file> 

 

テストデータをランしてみる。HPのTibetan antelope (TA) dataをダウンロードする。ダウンロードが終わったら解凍し、中に入る。

はじめにmakeしてparams.txtを作る。

cd TAdata/
make

params.txtができる。

以下のことが書かれていた。色々準備しておく必要があるみたいだ。

INSERTLIBFILE=/Volumes/3TB3/TAdata/insertsize_sd.txt  # File that has the lengths of insert libraries and their means and standard deviations estimated from read mapping.

INSERTSIZETHR=1000  #Insert library size threshold for the normal directions of two end reads

READMAPPINGDIR=/Volumes/3TB3/TAdata/TAreads  # Input directory that has the paired-end read mapping data

READMAPPINGLIB=/Volumes/3TB3/TAdata/readmapping_lib.txt #File that has the insert library name of each paired-end read mapping file in the $READMAPPING directory.

NCPUS=10 # The number of processes for parallel execution

SCFSIZEFILE=/Volumes/3TB3/TAdata/panHod2.size # Size of target scaffolds

SCFPREFIX=Scaffold # Prefix of target scaffold name

SCFSEQFILE=/Volumes/3TB3/TAdata/panHod2.fa #scaffold sequences

REFSPC=umd3 # Reference species

TARSPC=panHod2  # Target species

WINDOWSIZE=1000 #Window size for estimating paired-end read coverage

OUTPUTDIR=Out_RACA # Output directory

RESOLUTION=150000 # Block resolution (bp)

MIN_INTRACOV_PERC=5 # The minimum percentage in a null distribution of P_ia(i,j) scores  

IGNORE_ADJS_WO_READS=0

TREEFILE=/Volumes/3TB3/TAdata/tree.txt # Newick tree file

BENADJFILE=/Volumes/3TB3/TAdata/reliable_adjs.txt # Benchmark adjacency file

CONFIGSFSFILE=/Volumes/3TB3/TAdata/config.SFs # Config and make files for syntenic fragment construction

MAKESFSFILE=/Volumes/3TB3/TAdata/Makefile.SFs # Config and make files for syntenic fragment construction

 

 

READMEの説明では

2.1 Configuration file

 

RACA requires a single configuration file as a parameter. The configuration file has all parameters that are needed for RACA.

 Example dataset below has a sample configuration file 'params.txt' and all other parameter files which are self-explanatory (also refer to the data directory.)

Please read carefully the description of each configuration variable and modify them as needed.

とあるが、詳しく書かれていない。とりあえず変更ないままランする。テストデータにあるparams.txtを選択し、

Run_RACA.pl params.txt

 でジョブをスタートさせた。

 ランタイムが大変長いので、終わり次第追記します。

 

 

 

 

 

 

 

 

 

 

 

 

 

 引用

Reference-assisted chromosome assembly

Jaebum Kima,b,1, Denis M. Larkinc,1, Qingle Caid, Asand, Yongfen Zhangd, Ri-Li Gee,2, Loretta Auvilf,g, Boris Capitanuf,g, Guojie Zhangd, Harris A. Lewina,h,2, and Jian Maa,i,2

Proc Natl Acad Sci U S A. 2013 Jan 29;110(5):1785-90. doi: 10.1073/pnas.1220349110. Epub 2013 Jan 10.

http://www.pnas.org/content/110/5/1785.abstract