macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

UCLUSTでクラスタリングする

相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。

 

 

ダウンロード

http://www.drive5.com/uclust/downloads1_2_22q.html

マニュアル

http://www.drive5.com/uclust/uclust_userguide_1_1_579.pdf

 

配列が一致してクラスタリングされるかどうかは、配列とクエリーとのlocal alignment(e.g., BLAST)ではなく、global alingmentの結果で判定される。

f:id:kazumaxneo:20170903180611j:plain

公式サイトから引用。

このアライメントではidentityは66.6%となる。データベースはメモリーにキャッシュされ、それからクエリとの検索が行われる。クエリと既存のクラスターが合致すれば其のクラスタに編入され(下図 右)、マッチするクラスターがなければ新しいクラスターが作られる(下図 左)。

f:id:kazumaxneo:20170903181646j:plain

公式サイトから引用。

 

 

 

 

インストール

ダウンロードした実行ファイルを解凍し実行権をつける。パスの通っているディレクトリに移動しておく。

mv uclust1.2.22q_i86darwin64 uclust #リネーム
chmod u+x uclust
mv uclust /user/local/bin/

 

 

ラン

 Clustering

uclust --sort seqs.fasta --output seqs_sorted.fasta
uclust --input seqs_sorted.fasta --uc results.uc --id 0.90
  • --id Minimum identity for a hit (default 0.9). 

 

非冗長(nr)なデータベースを作るには以下のコマンドを打つ。

uclust --input seqs_sorted.fasta --uc2fasta results.uc --types S --output nr.fasta

 

 Database search

既存のデータベースを使ってクラスタリングを行う。

uclust --sort seqs.fasta --output seqs_sorted.fasta
uclust --input seqs_sorted.fasta --lib database.fasta --uc results.uc --id 0.90

 

Multiple alignment

uclust --input seqs_sorted.fasta --uc results.uc --id 0.90 
uclust --uc2fasta results.uc --input seqs_sorted.fasta --output results.fasta
uclust --staralign results.fasta --output aligned.fasta

 

 

 

引用

Search and clustering orders of magnitude faster than BLAST

Robert C. Edgar

Bioinformatics, Volume 26, Issue 19, 1 October 2010, Pages 2460–2461, https://doi.org/10.1093/bioinformatics/btq461