macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

cd-hitで似た配列をクラスタリングする

 

似た塩基配列アミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。

 

 

ただしde nobo transcritomeに使うなら、クラスタリングすることで定量に影響が出ないかどうかが問題になる。つまり、統合することで非常によく似たコピー遺伝子やパラログが失われ、かえって網羅性が失われる恐れがある。興味がある人は以下の論文を見てください。


 公式サイト

CD-HIT Official Website

 

webサーバー

http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi

 

インストール

brewで導入できる。

brew install cd-hit

 

 

 ラン

 DNAのクラスタリング

cd-hit-est -i input.fasta -c 0.95 -T 8 -o output.fasta 
  • -c sequence identity threshold, default 0.9
  • -i input filename in fasta format, required
  • -o output filename, required
  • -T number of threads, default 1; with 0, all CPUs will be used

他にも多くのオプションがある。

この場合だと95%以上似た配列が統合される。どれくらいの数値を使うかだが、例えばdeno vo transcriptome解析のペーパーでunigeneを絞り込むのに使う場合、95~98%などの閾値が使われている(数値の根拠は不明)。

 

.clstrを開くと、どのcontigがクラスターになったか分かる。例えば下に載せたクラスターは3つのcontigがクラスターになっている。最長だったNODE_21だけが出力され、他の2contigは排除されていることを意味する。

>Cluster 20

0       2181nt, >NODE_21_length_2181... *

1       128nt, >NODE_20700_length_1... at -/97.66%

2       72nt, >NODE_21261_length_7... at -/97.22%

 

 

 アミノ酸配列のクラスタリング

cd-hit -i input.faa -o output.faa -c 0.95 -T 8

 

 

cd-hit、cd-hit-estの他にも、duplicationがあるシーケンスリードクラスター化するCD-HIT-DUP、オーバーラップがあるリードをクラスター化するCD-HIT-LAP、二つの配列群を比較してクラスター化するCD-HIT-2Dなどがある。どのようなツールがあるかはこちらで確認してください。

 

 

 

引用

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences.

Li W1, Godzik A.

Bioinformatics. 2006 Jul 1;22(13):1658-9. Epub 2006 May 26.

 

CD-HIT | 核酸およびアミノ酸配列のクラスタリング