SMASHは2つの相同なゲノム(染色体)を比較し、組み替えを見つけて結果をビジュアル出力できるツール。解析にはNGSのデータなどは必要としない。純粋にchromosomeの配列だけを使って相同性のある部位や組み替え部位が検出される。霊長類のような大きなゲノム向けのツールとなる。Nature Scientific Reportsに2015年に発表された。
Githubより
公式サイト
インストール
https://github.com/pratas/smash
ダウンロードしてビルドする。公式サイトからは実行形式のバイナリもダウンロードできる。
brew install cmake wget gcc48
wget https://github.com/pratas/smash/archive/master.zip
unzip master.zip
cd smash-master/src/
cmake .
make
> ./smash
Usage: smash <OPTIONS>... [FILE] [FILE]
-h give this help,
-V display version number,
-v verbose mode,
-f force (be sure!),
-c <context> context order (DEF: 20),
-t <threshold> threshold [0.0,2.0] (DEF: 1.5),
-m <mSize> minimum block size (DEF: 1000000),
-i do not show inversions,
-n do not show regulars,
-r <ratio> image size ratio (MaxSeq/150),
-a <alpha> alpha estimator (DEF: 1000),
-s <seed> seed for random 'N',
-w <wSize> window size,
-wt <wType> window type [0|1|2|3] (DEF: 0),
-d <dSize> sub-sample (DEF: 10000),
-nd do not delete temporary files,
-wi <width> sequence width (DEF: 25),
-p <posFile> output positions file,
-o <outFile> output svg plot file,
[refFile] reference file,
[tarFile] target file.
パスを通しておく。
ラン
ヒトゲノムchr20とオラウータンchr20のゲノムをダウンロードして解凍する(GitではNCBIのリンクを紹介していますが、アドレスが変わっているのでEnsemblからダウンロードに変更しています)。
wget ftp://ftp.ensembl.org/pub/release-91/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.chromosome.20.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/pongo_abelii/dna/Pongo_abelii.PPYG2.dna.chromosome.20.fa.gz
#ヘッダを除き(grep -v ">")、ATGCN以外の余計な文字があれば消す(tr -dc "ATGCN")。
gzcat Homo_sapiens.GRCh38.dna.chromosome.20.fa.gz | grep -v ">" | tr -d -c "ACGTN" > HS20
gzcat Pongo_abelii.PPYG2.dna.chromosome.20.fa.gz | grep -v ">" | tr -d -c "ACGTN" > PA20
ラン。
SMASH -v -c 20 -t 1.5 HS20 PA20
- -v verbose mode
- -c <context> context order (DEF: 20)
- -t <threshold> threshold [0.0,2.0] (DEF: 1.5),
数分で解析は終わりSVGなどが出力される。SVGはphotoshopなどで開ける。
position情報は.posファイルに出力される。
$ head HS20PA20.pos
TARGET 1 12890 9068115 0-regular
REFERENCE 1 5542700 14243450 0-regular
TARGET 2 9100340 13134910 0-regular
REFERENCE 2 14243450 16350965 0-regular
REFERENCE 2 16383190 18129785 0-regular
TARGET 3 13154245 18883850 0-regular
REFERENCE 3 18136230 19083645 0-regular
REFERENCE 3 19160985 23666040 0-regular
TARGET 4 18961190 20920470 0-regular
REFERENCE 4 23840055 23975400
出力や設定できるパラメータの詳細についてはGithubを確認してください。詳しく書かれています。
https://github.com/pratas/smash
引用
An alignment-free method to find and visualise rearrangements between pairs of DNA sequences
Diogo Pratas,a, Raquel M. Silva, Armando J. Pinho, and Paulo J.S.G. Ferreira.
Sci Rep. 2015; 5: 10203. Published online 2015 May 18.