macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

マルチプルアライメントを行う T-Coffee

 T-Coffee(Tree based Consistency Objective Function For AlignmEnt Evaluation)はマルチプルアライメントを行うツールである。始めに2つずつ配列を比較し、それから全部の配列を使いマルチプルアライメントを実行する。従来のclustalより高速に動作する。より大規模な解析ではclustal omegaなどの選択肢があるが、普通の解析ではT-Coffee で十分である。

 

 

公式サイト

http://www.tcoffee.org/Projects/tcoffee/

T-Coffeeマニュアル

http://tcoffee.readthedocs.io/en/latest/

T-Coffee webサーバー(EMBL-EBI)

http://www.ebi.ac.uk/Tools/msa/tcoffee/

 

インストール

公式サイトより自己解凍形式の.dmgファイルをダウンロードする。インストーラーを解凍し、指示通り進める。

f:id:kazumaxneo:20170907114000j:plain

インストールが終わったら、sourceしてターミナルで導入を確認する。

source ~/.bash_profile 
t_coffee -version

 

 

ラン 

マルチファスタファイルを解析する。

t_coffee input.fasta

標準では全コアを使い解析が行われる。計算が終わると.aln、.dnd、htmlファイルが出力される。

.alnファイル。clustalXのAppend Sequencesで開くこともできる。

head -20 /Users/user/Desktop/ISy203alignment.aln 

CLUSTAL FORMAT for T-COFFEE Version_11.00.8cbe486 http://www.tcoffee.org [MODE:  ], CPU=0.01 sec, SCORE=999, Nseq=10, Len=1174 

 

ISY203a         CAGAAGTGTTGAACGATAGTTATAAAGAGAAA-AAAGCTCTTTAAAATGA

ISY203b         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203c         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203d         CAGAAGTGTTGAACGATAGTGATAAAGAGAAAAAAAGCTCTTTAAAATGA

ISY203e         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203f         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203g         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203j         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203k         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

ISY203x         CAGAAGTGTTGAACGATAGTTATAAAGAGAAAAAAAGCCCTTTAAAATGA

                ******************** *********** ***** ***********

 

ISY203a         TAGAATAAAGGGCAGAAATATTAGAATAATTGAAGCGATGATATCAAATT

ISY203b         TAGAATAAAGGGCAGAAATATTAGAATAATTGAAGCGATGATATCAAATT

ISY203c         TAGAATAAAGGGCAGAAATATTAGAATAATTGAAGCGATGATATCAAATT

ISY203d         TAGAATAAAGGGCAGAAATATTAGAATAATTGAAGCGATGATATCAAATT

ISY203e         TAGAATAAAGGGCAGAAATATTAGAATAATTGAAGCGATGATATCAAATT

ISY203f         TAGAATAAAGGGCAGAAATATTAGAATAATTGAAGAGATGATATCAAATT

html出力。

f:id:kazumaxneo:20170907115644j:plain

 

タンパク質のaccurateモード(アミノ酸のみ対応)。

t_coffee input.fasta -mode accurate

 

RNAのaccurateモード。

t_coffee input.fasta -mode rcoffee

 

高速モード。

t_coffee input.fasta -mode quickaln

 

低メモリモード(RNAに対応)。

t_coffee input.fasta -mode memory

 

引用

T-Coffee: A Novel Method for Fast and Accurate Multiple Sequence Alignment

CeÂdric Notredame1,2,3*, Desmond G. Higgins4 and Jaap Heringa1

J. Mol. Biol. (2000) 302, 205±217