macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ゲノムを比較し、染色体間の組み替えを可視化する SMASH

 

SMASHは2つの相同なゲノム(染色体)を比較し、組み替えを見つけて結果をビジュアル出力できるツール。解析にはNGSのデータなどは必要としない。純粋にchromosomeの配列だけを使って相同性のある部位や組み替え部位が検出される。霊長類のような大きなゲノム向けのツールとなる。Nature Scientific Reportsに2015年に発表された。

 

 ScreenShot

 Githubより

 

公式サイト

smash | UA.PT Bioinformatics

 

インストール

本体 Github

https://github.com/pratas/smash

ダウンロードしてビルドする。公式サイトからは実行形式のバイナリもダウンロードできる。

brew install cmake wget gcc48 
wget https://github.com/pratas/smash/archive/master.zip
unzip master.zip
cd smash-master/src/
cmake .
make

> ./smash

Usage: smash <OPTIONS>... [FILE] [FILE]              

                                                     

 -h                  give this help,                 

 -V                  display version number,         

 -v                  verbose mode,                   

 -f                  force (be sure!),               

                                                     

 -c  <context>       context order (DEF: 20),        

 -t  <threshold>     threshold [0.0,2.0] (DEF: 1.5),

 -m  <mSize>         minimum block size (DEF: 1000000),   

                                                     

 -i                  do not show inversions,          

 -n                  do not show regulars,            

 -r  <ratio>         image size ratio (MaxSeq/150),   

 -a  <alpha>         alpha estimator (DEF: 1000),      

 -s  <seed>          seed for random 'N',            

 -w  <wSize>         window size,                    

 -wt <wType>         window type [0|1|2|3] (DEF: 0),

 -d  <dSize>         sub-sample (DEF: 10000),           

 -nd                 do not delete temporary files,  

 -wi <width>         sequence width (DEF: 25),     

                                                     

 -p  <posFile>       output positions file,          

 -o  <outFile>       output svg plot file,           

                                                     

 [refFile]           reference file,                 

 [tarFile]           target file.

パスを通しておく。

 

ラン

ヒトゲノムchr20とオラウータンchr20のゲノムをダウンロードして解凍する(GitではNCBIのリンクを紹介していますが、アドレスが変わっているのでEnsemblからダウンロードに変更しています)。

wget ftp://ftp.ensembl.org/pub/release-91/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.chromosome.20.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/pongo_abelii/dna/Pongo_abelii.PPYG2.dna.chromosome.20.fa.gz

#ヘッダを除き(grep -v ">")、ATGCN以外の余計な文字があれば消す(tr -dc "ATGCN")。
gzcat Homo_sapiens.GRCh38.dna.chromosome.20.fa.gz | grep -v ">" | tr -d -c "ACGTN" > HS20
gzcat Pongo_abelii.PPYG2.dna.chromosome.20.fa.gz | grep -v ">" | tr -d -c "ACGTN" > PA20

 

ラン。

SMASH -v -c 20 -t 1.5 HS20 PA20
  • -v  verbose mode
  • -c <context>  context order (DEF: 20)
  • -t <threshold>   threshold [0.0,2.0] (DEF: 1.5), 

 

数分で解析は終わりSVGなどが出力される。SVGphotoshopなどで開ける。

f:id:kazumaxneo:20180111221026j:plain

 

position情報は.posファイルに出力される。

$ head HS20PA20.pos 

TARGET 1 12890 9068115 0-regular

REFERENCE 1 5542700 14243450 0-regular

TARGET 2 9100340 13134910 0-regular

REFERENCE 2 14243450 16350965 0-regular

REFERENCE 2 16383190 18129785 0-regular

TARGET 3 13154245 18883850 0-regular

REFERENCE 3 18136230 19083645 0-regular

REFERENCE 3 19160985 23666040 0-regular

TARGET 4 18961190 20920470 0-regular

REFERENCE 4 23840055 23975400

 

出力や設定できるパラメータの詳細についてはGithubを確認してください。詳しく書かれています。

https://github.com/pratas/smash

 

引用

An alignment-free method to find and visualise rearrangements between pairs of DNA sequences

Diogo Pratas,a, Raquel M. Silva, Armando J. Pinho, and Paulo J.S.G. Ferreira.

Sci Rep. 2015; 5: 10203. Published online 2015 May 18.