D J Lipman, W R Pearson, 1985
新たに決定されたアミノ酸配列とデータベースで既に利用可能な配列との間の類似性の検索を容易にするアルゴリズムが開発された。このアルゴリズムは多くのマイクロコンピュータ上で効率的に動作するため、繊細なタンパク質データベースの検索は、今や分子生物学者にとって日常的な手順になるかもしれない。この方法では、類似した配列の領域を効率的に同定し、アミノ酸置換性マトリックスを用いて、それらの領域内のアラインメントされた同一残基と相違する残基をスコア化する。このマトリックスは、進化の過程で頻繁に起こるアミノ酸置換に高いスコアを与えることで感度を向上させる。このアルゴリズムは、タンパク質データベースを非常に高速に検索するように設計されたコンピュータプログラムに実装されている。例えば、200-アミノ酸配列と国立生物医学研究財団ライブラリの50万残基との比較は、ミニコンピュータでは2分以内、マイクロコンピュータ(IBM PC)では10分以内である。
W R Pearson 1, D J Lipman, 1988
タンパク質とDNAの配列を比較するための3つのコンピュータプログラムを開発した。これらのプログラムは、配列データベースの検索、類似度スコアの評価、局所的な配列類似度に基づく周期的構造の同定に使用することができる。FASTAプログラムは、FASTPプログラムのより高感度な派生プログラムであり、タンパク質またはDNA配列データベースを検索するために使用することができ、タンパク質配列とDNA配列データベースを検索しながらDNA配列データベースを翻訳することで、タンパク質配列とDNA配列データベースを比較することができる。FASTAは、初期のペアワイズ類似度スコアを計算するステップをさらに含み、類似度の複数の領域を結合して関連する配列のスコアを増加させることができる。RDF2プログラムは、局所的な配列構成を保存するシャッフリング法を用いて、類似度スコアの有意性を評価するために使用することができる。LFASTAプログラムは、同一のスコアリングパラメータと類似アライメントアルゴリズムを用いて、閾値以上のスコアを有する2つの配列間の局所的な類似度のすべての領域を表示することができ;これらの局所的な類似度は、「グラフィックマトリクス」プロットとして、または個々のアライメントとして表示することができる。さらに、これらのプログラムは、様々な代替的なスコアリングマトリックスに基づくDNAまたはタンパク質配列の比較を可能にするように一般化されている。
Githubより
FASTA(FAST-Aye(ファストエー)と発音し、FAST-Ahではない)プログラムは、タンパク質およびDNA配列データベースを検索するための類似性検索およびアラインメントプログラムの包括的なセットである。BLASTプログラムblastpおよびblastnと同様に、FASTAプログラム自体は、タンパク質およびDNA配列中の類似領域を見つけるための迅速なヒューリスティック戦略を使用している。しかし、FASTA パッケージには、ヒューリスティックな類似性検索に加えて、厳密なローカル類似性検索(ssearch)とグローバル類似性検索(ggsearch)のためのプログラムと、重なり合わない配列類似性を見つけるためのプログラム(alalign)がある。BLASTと同様に、FASTAパッケージには、翻訳されたDNA配列をタンパク質に対して整列させるプログラムも含まれている(fastx, fastyはblastxに相当し、tfastx, tfastyはtblastnに相当する)。
documentation
https://vcru.wisc.edu/simonlab/bioinformatics/programs/fasta/fasta_guide.pdf
William Pearson
https://en.wikipedia.org/wiki/William_Pearson_(scientist)
William Pearson's talk
— R. K. Gazara (@rajeshgazara) 2018年10月26日
The fasta format developer@AB3C_oficial #xmeeting2018 pic.twitter.com/D4SLl0hNjh
インストール
macos10.14でcondaを使って導入した。
HP
condaではバージョン36のfasta36を導入できる。fasta2、fasta3、fasta33-35はオーサーの上のリンク先からダウンロードする。
#bioconda(link)
conda install -c bioconda fasta3 -y
> fasta36
$ fasta36
USAGE
fasta36 [-options] query_file library_file [ktup]
fasta36 -help for a complete option list
DESCRIPTION
FASTA searches a protein or DNA sequence data bank
version: 36.3.8g Oct, 2018
COMMON OPTIONS (options must preceed query_file library_file)
-s: scoring matrix;
-f: gap-open penalty;
-g: gap-extension penalty;
-S filter lowercase (seg) residues;
-b: high scores reported (limited by -E by default);
-d: number of alignments shown (limited by -E by default);
-I interactive mode;
> ssearch36
$ ssearch36
USAGE
ssearch36 [-options] query_file library_file
ssearch36 -help for a complete option list
DESCRIPTION
SSEARCH performs a Smith-Waterman search
version: 36.3.8g Oct, 2018
COMMON OPTIONS (options must preceed query_file library_file)
-s: scoring matrix;
-f: gap-open penalty;
-g: gap-extension penalty;
-S filter lowercase (seg) residues;
-b: high scores reported (limited by -E by default);
-d: number of alignments shown (limited by -E by default);
-I interactive mode;
> fastx36
$ fastx36
USAGE
fastx36 [-options] query_file library_file [ktup]
fastx36 -help for a complete option list
DESCRIPTION
FASTX compares a DNA sequence to a protein sequence data bank
version: 36.3.8g Oct, 2018
COMMON OPTIONS (options must preceed query_file library_file)
-s: scoring matrix;
-f: gap-open penalty;
-g: gap-extension penalty;
-j: frame-shift penalty;
-S filter lowercase (seg) residues;
-E: E()-value threshold;
-b: high scores reported (limited by -E by default);
-d: number of alignments shown (limited by -E by default);
-I interactive mode;
> tfastx36
$ tfastx36
USAGE
tfastx36 [-options] query_file library_file [ktup]
tfastx36 -help for a complete option list
DESCRIPTION
TFASTX compares a protein to a translated DNA data bank
version: 36.3.8g Oct, 2018
COMMON OPTIONS (options must preceed query_file library_file)
-s: scoring matrix;
-f: gap-open penalty;
-g: gap-extension penalty;
-j: frame-shift penalty;
-S filter lowercase (seg) residues;
-E: E()-value threshold;
-b: high scores reported (limited by -E by default);
-d: number of alignments shown (limited by -E by default);
-I interactive mode;
> ggsearch36
$ ggsearch36
USAGE
ggsearch36 [-options] query_file library_file
ggsearch36 -help for a complete option list
DESCRIPTION
GGSEARCH performs a global/global database searches
version: 36.3.8g Oct, 2018
COMMON OPTIONS (options must preceed query_file library_file)
-s: scoring matrix;
-f: gap-open penalty;
-g: gap-extension penalty;
-S filter lowercase (seg) residues;
-b: high scores reported (limited by -E by default);
-d: number of alignments shown (limited by -E by default);
-I interactive mode;
実行方法
クエリとデータベースの配列を指定する。
fasta36 [-options] query_file library_file [ktup]
または対話モードで実行する。
fasta36 -I
FASTAパッケージは長い配列間の類似性を探索します。配列間の局所的な類似性を探索する場合にはblastを使います。
引用
Rapid and sensitive protein similarity searches
D J Lipman, W R Pearson
Science. 1985 Mar 22;227(4693):1435-41
Improved tools for biological sequence comparison
W R Pearson 1, D J Lipman
Proc Natl Acad Sci U S A. 1988 Apr; 85(8): 2444–2448
参考
関連